Monat: Dezember 2010

  • Journalismus & Recherche » Lehrmaterialien

    Hier finden Sie Lehrmaterial zum Thema Recherche, insbesondere Internetrecherche.

    Bitte beachten Sie die Rechte der Autoren – eine Verwendung für Schulungen, Lehre, Veröffentlichungen etc. ist nur mit deren Zustimmung zulässig.

    Über Verbesserungsvorschläge freuen wir uns.

    Marcus Lindemanns Überblicksvorlesung zur Online-Recherche, inkl. der aktualisierten Übersicht über die Dinge, die Google nicht findet: Online Recherche (inkl. was Google nicht findet)

    Marcus Lindemanns Überblick über Suchstrategien für Fortgeschrittene, erstmals vorgestellt auf der netzwerk recherche Jahrestagung 2010: u.a. GoogleAds in der Recherche, Paul Myers Search Makros: Suchstrategien im Netz

    Eine Übersicht von Marcus Lindemann wie man Onlinequellen systematisch bewerten kann.
    Systematische Bewertung von Onlinequellen

    Marcus Lindemanns zehn Gebote für die Onlinerecherche in der neuesten Fassung (Juni 2009) Handout 10 Gebote für erfolgreiche Online-Recherchenv2009

    Wo fang ich mit der Recherche an? Auf welche Zugänge kann ich ausweichen, wenn ich auf anderem Wege noch nichts (Gutes) gefunden habe? Ich habe mal eine Liste gemacht – vorläufig und unvollständig. Zugänge zu Online Quellen

    Personensuche kann doch jeder? An einem Beispiel zeige ich, dass es mit dem Namen in Anführugnszeichen bei weitem nicht getan ist.Personensuche mit Beispiel

    Keine Angst vor dem Drehen mit versteckter Kamera – solange man sich an die Spielregeln hält. Marcus Lindemann hat diese für ein Publikation des Netzwerk Recherche mal zusammengefasst und ein sachkundiger Jurist seines Vertrauens hat auch drüber geschaut.
    Spielregeln: Drehen mit versteckter Kamera

    Eine ausführliche Erläuterung zu den journalistischen und juristischen Überlegungen rund um das verdeckte Drehen erscheint ebenfalls in der Undercover-Werkstatt des Netzwerk Recherche. Hier schon mal vorab:Verdeckt Drehen – so geht das! (pdf, 82kb)

    Was kann man mit Internetrecherche in einer Nachrichtenredaktion anfangen? Fehler vermeiden, Berichte anreichern – bis hin zur investigativen Geschichte! Präsentation als PDF – wegen der Größe nur ab Acrobat 7 und in 2 Teilen

    Korrespondenten ins Netz teil1

    korrespondenten-ins-netz-teil-2

    Auf den Podien von Journalistenkonferenzen und auch teilweise in sogenannten Studien wird erstaunlich viel Unsinn über die Internet-Recherche verbreitet. Ein Aufklärungsversuch.
    Im Netz liegt die Wahrheit (aus message 3/2008)

  • Journalismus & Recherche » Blog Archive » Die Spiderflüsterer

    Der „Robots Exclusion Standard“ aus Rechercheursperspektive

    Die Arbeitsweise aller Suchmaschinen beim Auffinden neuer Webseiten ist unspektakulär: Spezielle Programme, Robots, Bots oder Spider genannt, durchsuchen bekannte Webseiten nach Hyperlinks und laden die dadurch gefundenen Seiten via HTTP, um sie entweder in die Datenbank der Suchmaschine aufzunehmen, oder um sie in gleicher Weise zu durchsuchen. Konzeptionell ist dieser Vorgang ist bei allen Suchmaschinen wenig unterschiedlich (sie variieren vor allem in der Suchfrequenz und den zur Kenntnis genommenen Dateitypen).

    Fast jede Website hat Dateien oder Verzeichnisse, die für eine Suchmaschine nicht von Interesse sind, zum Beispiel Hintergrundgrafiken, Logos, Buttons, Longdesc-Texte usw. Andere, zum Beispiel in Framesets verwendete Navigationsspalten, soll eine Suchmaschine zwar nach deren Links durchsuchen, sie aber nicht selbst im Index aufführen, da die Navigationsspalte für sich genommen inhaltsleer ist – sie verweist ja nur auf die Inhaltsseiten. Das Wissen um diese Details hat selbstverständlich der Webadmin der entspechenden Site.

    Um die Kommunikation zwischen Webadmins und Suchmaschinen zu ermöglichen und zu systematisieren, wurde nach Diskussionen in einer Mailingsliste der Robots Exclusion Standard (RES) geschaffen. Er wurde niemals in den Kanon der RFC oder anderer Normensammmlungen aufgenommen, wird aber sehr häufig beachtet. Am wichtigsten ist vielleicht, dass die Wayback Machine den RES anwendet.

    Webmaster haben zwei Möglichkeiten, den RES zu nutzen: Sie können eine Datei robots.txt erstellen, und sie können in jeder HTML-Seite Metatags anbringen.

    Die Datei robots.txt

    Die Datei „robots.txt“ (deren Name aus Kompatibilitätsgrunden die 8/3-Konvention für Dateinamen einhält) muss als ASCII-Textdatei im Stammverzichnis der Website liegen. Ihr URL lautet also immer „http://[domain]/robots.txt“.

    In ihr kann der Webadmin festlegen, welche Dateien und Verzeichnisse der Spider ignorieren soll. Dabei kann er Wildcards einsetzen und Anweisungen an bestimmte Spider geben, sofern deren Bezeichnungen bekannt sind.

    Wenn ein Spider diese Datei liest und beachtet, werden bestimmte Dateien und Verzeichnisse also gar nicht erst an den Spider übertragen.

    Die RES-Metatags

    Zusätzlich kann in jede HTML-Datei der Metatag „meta name=’robots’ content=’index,follow’“ geschrieben werden. Dieser richtet sich unterschiedlos an alle Spider und setzt voraus, dass die entsprechende Datei übertragen und ihre Inhalte verarbeitet wurden. Die möglichen Angaben ‘index’/’noindex’ geben an, ob die Inhalte der Seite indiziert werden sollen, ‘follow’/’nofollow’ bezieht sich auf die Nachverfolgung von Hyperlinks. Soweit die Theorie…

    Praktische Auswirkungen

    Der immanente Widersinn des RES liegt auf der Hand: Es muss explizit genannt werden, was verschwiegen sein soll. Zum einen halten sich nicht alle Suchmaschinen an den RES, sei es, dass sie ihn ignorieren, sei es, dass sie gar die robots.txt gezielt auswerten.

    Zum Zweiten ist der RES ursrpünglich gedacht, um Suchmaschinen von Dateien fernzuhalten, die sie ohnehin nicht benötigen: Grafiken ohne wirklichen Inhalt oder Skripten im Verzeichnis „/cgi-bin“ etwa. Spätestens aber, seit archive.org die robots.txt auswertet, um zu erfahren, was nicht (öffentlich zugänglich) archiviert werden soll, müssen Webadmins auch sensible Informationen bekannt geben. Das macht die robots.txt für Rechercheure interessant. Schon allein, weil man mit einem Blick feststellen kann, ob der Verantwortliche den Unterschied zwischen einer unverbindlichen Nachricht an Spider und einem Passwordschutz für Verzeichnisse (der ja auch Suchmaschinen aussperrt) kennt.

    Das Beispiel

    Das wird klar, wenn man einen Blick in die robots.txt des Weißen Hauses wirft. (Um deren Webadmin nicht durch zu viele Klicks zu beunruhigen, verlinke ich hier auf eine lokal gespeicherte Kopie dieser Datei vom 14. Mai).

    Auffällig ist, dass der Webadmin des Weißen Hauses vor allem die Texte der Website aus öffentlichen Suchmaschinen und der Wayback Machine heraushalten möchte.

    Wohlvermerkt: Es ist nicht unsinnig, dass die Site des Weißen Hauses den RES nutzt: Für den (vermutlich regierungsinternen) Spider namens „whsearch“ sind die „Disallow“-Zeilen sehr viel weniger, und dem Anschein nach sinnvoll für eine umfassende Textsuche.

    Seine Anwendung ist aber unüberlegt. Stellvertretend für viele andere Websites liefert die robots.txt des US-Präsidenten quasi eine Übersicht über heikle Inhalte. Aus technischer Perspektive ist dies Vorgehen unsinnig. Die Verantwortlichen hätten den Webserver so konfigurieren können, dass z.B. nur Anfragen von bestimmten IP-Adressen erfolgreich sind, während allen anderen (inklusive Suchmaschinen) Fehlermeldungen oder unsensible Inhalte geliefert werden.

    Fazit: Beim Durchleuchten einer Website ist ein Blick in die robots.txt (oder deren Beobachtung z.B. durch Webdienste wie Changenotes obligat. Insbesondere kann die Datei Hinweise liefern, welche Inhalte die Betreiber einer Website als heikel ansehen, wenn sie nicht sogar eine ‘alternative Navigation’ ermöglicht.

    [AUde]

    Tags: Metadaten

  • Journalismus & Recherche » Blog Archive » Online-Recherche FAQs

    12 Jahre unterrichte ich jetzt schon Online-Recherche und es gibt ein paar Fragen, die immer noch und immer wieder auftauchen. Meist sind das Fragen, um die herum ich ein ganzes Seminar stricken soll – allerdings lassen sich die meisten leicht beantworten, weswegen ich die dafür passende Form wähle und heute mal meine frequently asked questions hier aufliste und beantworte.

    #1: Muss es immer Google sein?
    Nein, Sie können genau so gut auch eine der anderen beiden großen Suchmaschinen, also bing oder yahoo verwenden. Wichtig ist, dass die Suchmaschine einen eigenen Index verwendet und dass dieser möglichst groß ist. An vierter Stelle kommt auch noch ask in Frage.
    Wenn Sie mal ohne vorgefasste Meinung ausprobieren wollen, welche der großen drei Suchmaschinen Ihnen am besten gefällt, probieren Sie blindsearch aus. Dort werden Ihnen die Ergebnisse der drei großen Suchmaschinen nebeneinander dargestellt.

    #2:Darf ich als Journalist Wikipedia nutzen? Ja, dürfen Sie, es wäre sogar törricht, es nicht zu tun – denn die Wikipedia liefert bei den meisten Themen einen guten Einstieg und führt sehr schnell – über die angegebenen Quellen und Links – in die Tiefe. Nur eines dürfen Sie in der Wikipedia tatsächlich nicht: abschreiben, oder überhaupt etwas ungeprüft von dort übernehmen. Viele Angaben aus der Wikipedia lassen sich aber leicht gegenchecken – selbst wenn die Quellen nicht angegeben sind.

    (Falls Ihr Verlag das anders sieht und die Wikipedia gesperrt hat, fragen Sie Ihre Kollegen nach dem Trick mit dem Google cache. Gruß nach Bremen!)

    #3: Bringt es etwas, nacheinander mit google, bing und yahoo zu suchen?
    In der Regel so wenig wie es Ihre Ernährung verbessert, wenn Sie im nacheinander zu McDonalds, Burger King und Kentucky Fried Chicken gehen. Die drei Konzerne, egal ob Suchmaschinen oder Fast Food, befriedigen mit weitgehend ähnlichen Methoden, das gleiche Bedürfnis.

    #4: Was kann ich tun, wenn ich meine Suchbegriffe nicht auf der angezeigten Seite finde? Schritt 1: Suchen Sie mit Strg-F nach dem Begriff innerhalb der Seite. Wenn das nicht hilft, Schritt 2: Gehen Sie zurück in die Ergebnisliste und klicken dort auf „im Cache“ (oder „zwischengespeicherte Seiten“ bei bing) Dort sollten Sie den Suchbegriff nun finden – mit Strg-F oder weil er schon farbig markiert ist.

    Schritt 3: Lesen Sie den Text ganz oben auf der Cache-Seite. Wenn Sie Ihren Suchbegriff bislang noch nicht gefunden haben, dann ist er wahrscheinlich in der Beschreibung eines Links, der auf die angezeigte Seite verweist, verwendet worden.

  • Journalismus & Recherche » Blog Archive » 39e8c8f7eeec9f73f7627154fb50f128 – Schäuble defaced

    Dass man mit sensiblen Daten anders umgehen muss, als mit einem beliebigen Christstollen, das sollte so langsam in dieser Republik bekannt sein – auch Telekom und Bahn sei dank. Gerade bei jenen, die „Sicherheit“ propagieren oder was sie dafür halten.

    Vor diesem Hintergrund ist das Defacement der Website von Bundesinnenminister Wolfgang Schäuble mehr als nur eine Marginale. Die derzeit zwischenzeitlich unerreichbare Site („Page is being generated. If this message does not disappear within 30 seconds, please reload.“) verlinkte zwischenzeitlich auf den AK Vorratsdatenspeicherung.

    Der Hintergrund: Jemand hatte unter Ausnutzung einer bekannten Lücke des auf der Site eingesetzen CMS Typo3 das als MD5-Hash abgelegte Password gefunden. Um den Hash-Wert dann aufzulösen, reicht eine simple Google-Abfrage. Das Passwort für www.wolfgang-schaeuble.de lautete „gewinner“ – man soll es nicht für möglich halten.

    Bedenkt man, welche Gesetze Herr Schäuble auf den Wehg bringt, ist dies Defacement blamabel – und beängstigend.

    Anm.:
    Wegen der Berichterstattung liefert die Google Suche nach dem Hash-Wert zunehmend irreführdende Ergebnisse. Interessant sind vor allem die Md5-Cracker www.md5decrypter.co.uk, milw0rm.org/cracker/insert.php und die Liste unter md5.paniert.org/md5/page1.php (nach kurzem Directoy Stemming: 3.512 pages) NB sollte man diese Liste als Ausschlußkriterium für Passwörter nehmen.

    Anm. 2:
    Für einen Journalisten auf Recherche ist es selbstverständlich nicht angängig, einen Md5-Hash zu cracken und das so gewonnene Passwort zu verwenden. Aber man sollte wissen, dass dergleichen geht.

    Tags: Defacement, Hacking, Md5-Hash, Sicherheit