Robots werden dann eingesetzt, wenn es darum geht, große Datenmengen zu erfassen. Man muss sich jedoch mit Datenformaten auseinandersetzen. Robots sind z.B. die Spider, Crawler etc. von Yahoo, MSN, Google usw.
Eine typische Datenerfassung läuft ab nach dem Schema:
- Fragestellung
- Quellen- und Formatanalyse
- Auswahl Erfassungswerkzeug (Robot, Survey, Script)
- Anpassung, Testlauf
- Erfassung und Ablage
- Verarbeitung und Analyse
- Story!
„Prozent is your friend“: % ist ein „Stemming“-Zeichen für Datenbankabfragen. Wenn der Programmierer gepennt hat, kann man mit der Einagbe des %-Zeichens den gesamten Datenbankinhalt auf einen Schlag abfragen.
Beispiel: PISA
Fragestellung: Langfristige Entwicklung der Schulen.
Problem: Daten werden z.T. nicht so lange gespeichert oder sind unmöglich einzeln im Nachhinein zu erfassen.
Normale Lösung: Vereinfachen, begrenzen. Das Problem daran ist die eingeschränkte Perspektive, also wenn man etwa die Rütli-Schule auswählt. CAR hilft hier bei der Langzeit-Datenextraktion und Speicherung: Welche Klassenstärke, wieviel Schüler etc. Die Daten sind auch kostenpflichitg zu bekommen, aber relativ teuer (700 Euro).
Schwierigkeit: Länder haben Bildungshoheit, so dass die Daten in x Quellen und n Formaten vorliegen. Die CAR-Lösung ist, Datenadapter zu schreiben für verschiedene Bundesländer. Sebastian führt vor, wie er einen Server des NRW-Bildunsgministeriums abfragt, bekommt durch Einsatz des %-Zeichens alle Datensätze angezeigt: Schulform, Ort, Adresse etc. Die Idee dahinter: Analyse der Vorher-/Nachher-Versprechen zur Schulpoliitk. Sebastian speichert Quelltext der Seite, lässt ihn anzeigen und demonstriert, wie man in diesen Informationen Muster erkennen kann.
Um die Daten zu extrahieren, kann man nun einen Robot einsetzen. Zur Demonstration ersetzt Sebastian bestimmte Teile eines Datenausschnitts durch Leerzeichen (mithilfe der „Suchen und Ersetzen“-Funktion des Texteditors). So kann man auf diese Art bestimmte Listen erstellen, etwa alle offenen Gesamtschulen, oder auch eine Aufschlüsselung der Kurse, die an diesem Gesamtschulen unterrichtet und belegt werden. Die Idee etwa für eine Geschichte, die man mit derartigen Daten unterstützen könnte: Wie verändern sich die Vorlieben von Schülern bei der Wahl der Sprachen, die sie lernen? Diese Daten bekäme man unter Umständen auch von der Pressestelle, aber nicht immer – und auch nicht kostenlos.
Sebastian demonstriert eine Anwendung mit dem Mac-Robot „Anthrazite“, aber diese Präsentation ist zum Bloggen zu aufwändig. In mehreren Schritten extrahiert er die Daten aus den Webseiten der 614 Bundestagsabgeordneten, um sie dann in einer Tabelle sortieren zu lassen – nach Religions- oder Ausschusszugehörigkeit und vielem mehr. Das lässt sich „von Hand“ nur noch schwer erreichen. Man kann dabei systematische Fehler machen, aber z.B. keinen Fehler beim Abtippen.
Kapau ist für derartige Analysen das beste Werkzeug, aber die Lizenz ist sehr teuer. Marcus Lindemann ergänzt, dass die dänische Organisation DICAR, mit der es eine Zusammenarbeit gibt, bei Bedarf ihr Programm zur Verfügung stellen würde, wenn es eine sinnvolle journalistische Anwendung dafür gibt.
Sebastian, der demnächst auch hier bloggen wird, wird bald eine Liste mit den Programmen hier ergänzen.
ich freue mich schon auf die arbeit von sebastian und seine liste.