Kategorie: Allgemein

Unterschreiben für ein Lobbyisten-Register – Journalismus & Recherche

LobbyControl appelliert an den Bundestag, ein verpflichtendes Lobbyisten-Register einzurichten und bittet dafür um Unterstützung: Appell: Lobbyisten zu Transparenz verpflichten! Unterzeichnen kann man per Web-Formular, danach kommt per E-Mail ein Bestaetigungs-Link.

Den Aufruf Lobbyisten zu Transparenz verpflichten! Ein Lobbyistenregister für Berlin gibt’s als PDF (5 S., 175 KB)

19. Juli 2024
Grundwissen – Journalismus & Recherche

Hinweis: Hier fehlen noch etliche Verlinkungen. Sie werden im Laufe des Tages ergänzt. Ich bitte um Verständnis. Gute Nacht 😉
Google hat laut „heise online“-Newsticker in Deutschland im September 2006 die 90-Prozent-Hürde beim Marktanteil in Deutschland genommen. Das heißt, mehr als 90 Prozent der Web-Suchanfragen in Deutschland werden bei Google gestellt – und von Google beantwortet. Wie es dazu kam? Google hat sich mit seiner Pagerank-Suchtechnologie und einer einfachen Bedienung die Marktführerschaft erobert und gilt seither als Suchmaschine Nr. 1 im Web. In vielen Browsern ist Google seit Jahren als Standardsuchmaschine voreingestellt. Wir können zwar damit unzufrieden sein, dass Google so marktbeherrschend ist. Fakt ist allerdings: Google ist neben oder vielleicht sogar vor Yahoo und MSN nach wie vor die beste Allround-Suchmaschine. Aus Recherche-Sicht ist es sicher klug, viele Suchmaschinen, vor allem auch Spezialsuchmaschinen, zu kennen. Aber wenigstens den Marktführer Google sollte man nicht nur kennen, sondern auch gut beherrschen. Daher hier die Basics zum Platzhirschen aus Mountain View (Kalifornien).

19. Juli 2024
Datenvisualisierung: Die Diskussion – Journalismus & Recherche

Im „lab“, dem Trainingsblog der Deutschen Welle über „Neue Medien, multimediale Projekte, Anwendungen und Darstellungsformen im Netz“, hat Marcus Bösch einen Beitrag zur Datenvisualisierung geschrieben, worauf Jakob Jochmann (Mitbegründer und Herausgeber der Kontextschmiede) eine rege, lesenswerte Diskussion ausgelöst hat.
Da ich hier bei recherche-info.de der Visualisierungsbeauftragte bin, habe ich mich erstens auch beteiligt, zweitens die genannten Sites (Beispiele, Blogs etc.) bei Delicious etikettiert (bzw. „getagged“). “datenvisualisierung” ist zwar ein etwas sperriger Tag, aber dafür umso eindeutiger. Wäre schön, wenn alle Interessierten ihn im Blick behalten. Futter für die RSS-Reader.

19. Juli 2024
Online-Recherche: Suchmaschinen-Syntax (1/4) – Journalismus & Recherche

Ab heute stelle ich – hoffentlich täglich – Teile meines Buchkapitels (Grundsätzliches dazu hier) über Recherche hier online. Beginnen will ich mit dem Teil, der unstrittig ins Buch gehört: Die Frage wie man vernünftig online recherchiert.
Dazu will ich zunächst die Suchmaschinen-Syntax und dann eine Reihe von komplexeren Suchstrategien präsentieren: Search-Makros, gezielte Befragung einer Online-Quelle, Suchbegriffe suchen und finden (Wie heißt das was ich suche? Inhalte oder Überschriften suchen?), Personensuche, Datenbanken und andere DeepWeb Quellen erschließen. Grundlage ist mein Vortrag Suchstrategien, den ich auf der #nr10 gehalten habe – ergänzt um das, was ich seither dazu gelernt habe. Zu meiner Darstellungs-Syntax: Ich schreibe Suchbegriffe in eckige Klammern [christian jakubetz], wenn ich nach dem Herausgeber des Buches ohne Anführungszeichen suche (Warum das eine gute Idee ist, erkläre ich in der Folge über Personensuche!) bzw. [„Christian Jakubetz“], wenn ich ihn in Anführungszeichen suche.

Weil es übersichtlicher ist, habe ich die Syntax hier in einem pdf in einer Tabelle dargestellt.

Morgen folgt Teil zwei mit der Syntax, die nicht dokumentiert ist und der, die nicht mit der Syntax aus diesem Teil kombiniert werden kann. Teil 3 dann mit den übrigen Funktionen der erweiterten Suche(n) und Teil 4 mit allem, was sonst noch Grundlegendes über Google, Bing und Co vergessen wurde.

All das ist work in progress für das Buch: Daher freue ich mich über bessere Beispiele, Korrekturen, Ergänzungen!

19. Juli 2024
Tolles Werkzeug zur Dokumentation: Pearl Crescent Page Saver – Journalismus & Recherche

Kollege Ude hat sie in seinem lesenswerten Artikel im „Journalist“ zu Plagiaten bereits erwähnt, aber noch nicht hier im Blog. Daher der Hinweis auf Pearl Crescent Page Saver, eine Firefox-Erweiterung, die es erlaubt, nicht nur vom sichtbaren Teil einer Webseite einen Screenshot zu erstellen, sondern von der kompletten. Sehr hilfreich bei der Dokumentation von Web-Fundstellen,was ja bekanntlich auch ab und an zur Recherche gehört.

19. Juli 2024
complete privacy does not exist – Journalismus & Recherche

„complete privacy does not exist„, so ein Google-Anwalt laut einer Meldung auf The Smoking Gun. Wie wahr das ist, darauf weist Kai Biermann in „Fotografieren verboten“ auf ZEIT online hin. Mitarbeiter des US-amerikanischen National Legal and Policy Centers (NLPC) haben, nur durch Nutzung von Google-Diensten, einen ungenannten „top Google executive“ in weniger als 30 Minuten eingekreist. Abzurufen ist das PDF-Dokument unter
www.nlpc.org/pdfs/googleexecutive.pdf (PDF-Datei, 7 S., 498 KB)

Teile des Dokuments sind „geschwärzt“. Sofern die Schwärzungen über Grafiken liegen, ist das wirksam. Bei der Schwärzung von Texten jedoch reicht ein wenig analytische Recherche, um diese zu umgehen: CRTL +a markiert das gesamte Dokument, CRTL +c kopiert es in die Zwischenablage, CRTL +v kopiert es, zum Beispiel in einen Texteditor. Und schon sind die vorgeblich geschwärzten Textsequenzen sichtbar.
Ob die NLPC-Aktivisten die Schwärzung augenzwinkernd so gestaltet haben, oder ob sie es nicht besser wussten – wer kann’s entscheiden. Jedenfalls ein schönes Beispiel.
Kleiner Spaß am Rande: Google, Yahoo und Life haben die PDF-Datei im Cache zwischengespeichert und bieten HTML-Ansichten an. All diesen automatisch konvertierten Seiten fehlen alle Bilder – und selbstverständlich sind alle geschwärzten Texte sichtbar.

19. Juli 2024
Millionenspendenjournalismus – Journalismus & Recherche

In England nimmt jetzt ein durch eine Großspende über 2 Millionen Pfund finanziertes Journalistenbüro die Arbeit auf, berichtete die SZ am Freitag auf ihrer Medienseite (leider nicht online). Die Potter Foundation des Londoner Philantrophen-Ehepaars Elaine und David Potter habe das Geld lockergemacht, um die Einrichtung des Bureau of Investigative Journalism zu finanzieren, das Reporter bei Recherchen finanziell und ideell unterstützen soll.

„Das Ziel dieses Projekts ist es, investigativen Journalismus zu ermöglichen, der den höchsten ethischen Kriterien entspricht“, sagt Elaine Potter, die früher als Journalistin bei der Sunday Times arbeitete. Das gemeinnützige Bureau wird von den Leitern des Centre for Investigative Journalism an der Londoner City University betreut werden und kann auf die Mitarbeit prominenter Schreiber zählen. Unter anderem haben Nick Davies und der amerikanische Veteran Seymour Hersh ihre Hilfe zugesagt. „Das Bureau kann eine Vorbildfunktion für eine neue Art von Journalismus einnehmen“, glaubt Hersh. Der Internetkonzern Google will die Einrichtung mit Software und Trainingskursen unterstützen. In den kommenden Monaten sollen die ersten zwei Journalisten als Vollzeitkräfte eingestellt werden.

Vorbild dürfte das US-amerikanische Pendant Pro-Publica sein, ebenfalls aus Stiftungsmitteln und Spenden finanziert.
Mehrdeutig überschreibt die SZ den Bericht übrigens mit „Vorbildfunktion“: Vielleicht finden sich ja auch in Deutschland Nachahmer, die ein paar Millionen übrig haben?

19. Juli 2024
nr-Jahrestreffen: Das Programm ist online – Journalismus & Recherche

Das Pogramm des kommenden Jahrestreffens des netzwerk recherche ist online, zu finden unter netzwerkrecherche.org.
In diesem Jahr führt die Konferenz „von Journalisten für Journalisten“ das Motto „Schlechte Zeiten! Gute Zeiten! Aufbruch im Umbruch„. Getagt wird am Freitag und Sonnabend, dem 14. und 15 Juni 2013 wie immer beim NDR Fernsehen in Hamburg.
Für die Leser dieses Blogs dürften die Panel „Computer & Recherche“ und „Recherche praktisch“ von besonderem Interesse sein. Soweit machbar, werden die Workshops hier dokumentiert.

Da das netzwerk recherche wieder mal während der Schafskälte zusammenkommt, ist mit gutem Wetter nicht wirklich zu rechnen.

19. Juli 2024
Die Spiderflüsterer – Journalismus & Recherche

Der „Robots Exclusion Standard“ aus Rechercheursperspektive

Die Arbeitsweise aller Suchmaschinen beim Auffinden neuer Webseiten ist unspektakulär: Spezielle Programme, Robots, Bots oder Spider genannt, durchsuchen bekannte Webseiten nach Hyperlinks und laden die dadurch gefundenen Seiten via HTTP, um sie entweder in die Datenbank der Suchmaschine aufzunehmen, oder um sie in gleicher Weise zu durchsuchen. Konzeptionell ist dieser Vorgang ist bei allen Suchmaschinen wenig unterschiedlich (sie variieren vor allem in der Suchfrequenz und den zur Kenntnis genommenen Dateitypen).

Fast jede Website hat Dateien oder Verzeichnisse, die für eine Suchmaschine nicht von Interesse sind, zum Beispiel Hintergrundgrafiken, Logos, Buttons, Longdesc-Texte usw. Andere, zum Beispiel in Framesets verwendete Navigationsspalten, soll eine Suchmaschine zwar nach deren Links durchsuchen, sie aber nicht selbst im Index aufführen, da die Navigationsspalte für sich genommen inhaltsleer ist – sie verweist ja nur auf die Inhaltsseiten. Das Wissen um diese Details hat selbstverständlich der Webadmin der entspechenden Site.

Um die Kommunikation zwischen Webadmins und Suchmaschinen zu ermöglichen und zu systematisieren, wurde nach Diskussionen in einer Mailingsliste der Robots Exclusion Standard (RES) geschaffen. Er wurde niemals in den Kanon der RFC oder anderer Normensammmlungen aufgenommen, wird aber sehr häufig beachtet. Am wichtigsten ist vielleicht, dass die Wayback Machine den RES anwendet.

Webmaster haben zwei Möglichkeiten, den RES zu nutzen: Sie können eine Datei robots.txt erstellen, und sie können in jeder HTML-Seite Metatags anbringen.

Die Datei robots.txt

Die Datei „robots.txt“ (deren Name aus Kompatibilitätsgrunden die 8/3-Konvention für Dateinamen einhält) muss als ASCII-Textdatei im Stammverzichnis der Website liegen. Ihr URL lautet also immer „http://[domain]/robots.txt“.

In ihr kann der Webadmin festlegen, welche Dateien und Verzeichnisse der Spider ignorieren soll. Dabei kann er Wildcards einsetzen und Anweisungen an bestimmte Spider geben, sofern deren Bezeichnungen bekannt sind.

Wenn ein Spider diese Datei liest und beachtet, werden bestimmte Dateien und Verzeichnisse also gar nicht erst an den Spider übertragen.

Die RES-Metatags

Zusätzlich kann in jede HTML-Datei der Metatag „meta name=’robots‘ content=’index,follow’“ geschrieben werden. Dieser richtet sich unterschiedlos an alle Spider und setzt voraus, dass die entsprechende Datei übertragen und ihre Inhalte verarbeitet wurden. Die möglichen Angaben ‚index’/’noindex‘ geben an, ob die Inhalte der Seite indiziert werden sollen, ‚follow’/’nofollow‘ bezieht sich auf die Nachverfolgung von Hyperlinks. Soweit die Theorie…

Praktische Auswirkungen

Der immanente Widersinn des RES liegt auf der Hand: Es muss explizit genannt werden, was verschwiegen sein soll. Zum einen halten sich nicht alle Suchmaschinen an den RES, sei es, dass sie ihn ignorieren, sei es, dass sie gar die robots.txt gezielt auswerten.

Zum Zweiten ist der RES ursrpünglich gedacht, um Suchmaschinen von Dateien fernzuhalten, die sie ohnehin nicht benötigen: Grafiken ohne wirklichen Inhalt oder Skripten im Verzeichnis „/cgi-bin“ etwa. Spätestens aber, seit archive.org die robots.txt auswertet, um zu erfahren, was nicht (öffentlich zugänglich) archiviert werden soll, müssen Webadmins auch sensible Informationen bekannt geben. Das macht die robots.txt für Rechercheure interessant. Schon allein, weil man mit einem Blick feststellen kann, ob der Verantwortliche den Unterschied zwischen einer unverbindlichen Nachricht an Spider und einem Passwordschutz für Verzeichnisse (der ja auch Suchmaschinen aussperrt) kennt.

Das Beispiel

Das wird klar, wenn man einen Blick in die robots.txt des Weißen Hauses wirft. (Um deren Webadmin nicht durch zu viele Klicks zu beunruhigen, verlinke ich hier auf eine lokal gespeicherte Kopie dieser Datei vom 14. Mai).

Auffällig ist, dass der Webadmin des Weißen Hauses vor allem die Texte der Website aus öffentlichen Suchmaschinen und der Wayback Machine heraushalten möchte.

Wohlvermerkt: Es ist nicht unsinnig, dass die Site des Weißen Hauses den RES nutzt: Für den (vermutlich regierungsinternen) Spider namens „whsearch“ sind die „Disallow“-Zeilen sehr viel weniger, und dem Anschein nach sinnvoll für eine umfassende Textsuche.

Seine Anwendung ist aber unüberlegt. Stellvertretend für viele andere Websites liefert die robots.txt des US-Präsidenten quasi eine Übersicht über heikle Inhalte. Aus technischer Perspektive ist dies Vorgehen unsinnig. Die Verantwortlichen hätten den Webserver so konfigurieren können, dass z.B. nur Anfragen von bestimmten IP-Adressen erfolgreich sind, während allen anderen (inklusive Suchmaschinen) Fehlermeldungen oder unsensible Inhalte geliefert werden.

Fazit: Beim Durchleuchten einer Website ist ein Blick in die robots.txt (oder deren Beobachtung z.B. durch Webdienste wie Changenotes obligat. Insbesondere kann die Datei Hinweise liefern, welche Inhalte die Betreiber einer Website als heikel ansehen, wenn sie nicht sogar eine ‚alternative Navigation‘ ermöglicht.

[AUde]

19. Juli 2024
Schwärzung – Seite 2 – Journalismus & Recherche
Henk demonstriert einige Methoden, mit deren Hilfe man einschätzen kann, wie zuverlässig die Informationen auf einer Website sind. Schönes Beispiel: Welchen biografischen Informationen über Martin Luther King kann man trauen? Er zeigt erstmal nur die Web-Adressen (URLs) der Seiten:
- martinlutherking.org
- martinlutherking.tk
- 213.198.79.178/members9/~melski/martinlutherking.htm
- www.psd267.wednet.edu/~kfranz/SocialStudies/MLKJr/martinlutherking.htm
Die 213.198.79.178/etc.-Adresse ist unvollständig; wird nachgereicht, sobald Henk seine Präsentation schickt.
19. Juli 2024

Kategorie: Allgemein

Die Datei robots.txt

Die RES-Metatags

Praktische Auswirkungen

Das Beispiel