Monat: Mai 2008

Journalismus & Recherche » Google

Dienstag, Juni 13th, 2006

Ein Film von Julia Salden (Redaktion ZAPP), ausgestrahlt vom NDR am 07.06.2006: “Google – die Macht einer Suchmaschine : Der erste deutsche Film über den amerikanischen Internet-Giganten”.

Das Sendemanuskript (PDF) und auch das Video können vom Server des NDR geladen werden.

[AUde]

Samstag, Mai 27th, 2006

Ein lesenswertes Interview mit dem Laborleiter der Suchmaschine ask.com, Antonio Gulli, hat die Technology Review online: „Das wichtigste sind die ersten zehn Treffer“.

Schon im März stand in der TR, welche Rolle ask.com beim Suchen ohne Googlen zukünftig spielen könnte.

Sonntag, Mai 21st, 2006

Henks Präsentation (PDF, 1,7 Mb, Englisch). Die deutsche Fassung wird nachgereicht, sobald Henk dazu kommt sie zu schicken.

Freitag, Mai 19th, 2006

Henk van Ess vom Search Bistro, bekannt für seine Geschichte zu Googles “geheimem Suchlabor”, zeigt Beispiele dafür, wie man mit Google in der Tiefe recherchiert.
Henk erklärt zuerst, wie man mit Google Notebook vollständige Webseiten speichern kann. Frage aus dem Publikum: wird das auf dem eigenen Rechner gespeichert oder bei Google? Henk: bei Google – was Nach- und Vorteile hat: Nachteil: (fehlender) Datenschutz. Vorteil: von überall her abrufbar. Man kann das eigene Google-Notizbuch für andere öffnen, so dass eine Community daraus entstehen kann. (more…)

Dienstag, April 25th, 2006

Wow, mal eben „recherchieren“, wo man die schönsten Baulücken Berlins findet oder wie das Parkplatzangebot (leider nicht in Echtzeit) in der Straße des Autoren ist? Google Maps hat nicht nur offenbar seit gestern Abend erneut seine Kartenqualität gefühlt erhöht, sondern für Kontinentaleuropa auch endlich detaillierte Straßendaten hinzugefügt.

Welche möglichen ernsteren Recherche-Anwendungen von Google Maps es gibt? Für die Rechercheure bei Greenpeace fielen mir direkt einige ein, aber auch für die ~~klassische~~ Web-2.0-like journalistische Recherche? Was meint ihr?

Dienstag, März 7th, 2006

Seit Google den Hinweis auf der Startseite gestrichen hat, weiß man das nicht mehr so recht. Aber manchmal bekommt man eine Ahnung. Mein aktueller Tipp: Google durchsucht im Moment rund 12 Millionen Sites.

Wie ich darauf komme? Mit aktiviertem “Safesearch” suche ich den erstbesten Begriff, den google mir dann nicht mehr anzeigen sollte, “porno” (”fuck” geht auch, aber es gibt auch Sites, die trotz Safesearch dann noch angezeigt werden). Nun zeigt mir google doch tatsächlich 11,13 Milliarden Treffeer an (vor dem Abschalten des Hinweises war google bei knapp unter 5 Milliarden) und weist zugleich darauf hin, dass man den Begriff “porno” aus meiner Suche entfernt habe. Was aber hat google nun gefunden? Vermutlich einen Großteil aller Sites, die überhaupt durchsucht wurden. (Nach Angaben der deutschen Hilfe von Google wären es nur 8 Milliarden. – Recherch-o-log enthüllt: Google durchsucht 50% mehr Sites als sie zugeben.)

Die Gegensuche “porno” ohne Safesearch bringt 9,36 Millionen Treffer – die kommen noch oben drauf. Und sonst noch? Naja, alles was google durchsucht, aber sowieso nicht anzeigt, auch nicht ohne Safesearch. Also, 11,13 Mrd plus 0,00936 Mrd plus x.

PS: Wenn mir jemand erklären kann, warum die Anfrage “porn OR porno” weniger Ergebnisse bringt …

PPS: Warum kann ich google.cn nicht aufrufen? Bei anderen Endungen geht das. google.cn bekomme ich nur als cache …

27. Mai 2008
Journalismus & Recherche » Tricks, Tools, Tipps
Dienstag, Oktober 24th, 2006

Der Open-Source Webbrowser Firefox der Mozilla Foundation sucht nach Ideen für die Weiterentwicklung des Programmes. Im Mozilla-Wiki können Vorschläge für neue Funktionen gemacht werden.

Firefox hat eine große Entwicklergemeinschaft; zudem kann das “Kern”-Programm durch “Extensions” (zu deutsch Erweiterungen) schon jetzt nach den Bedürfnissen des Nutzers ergänzt werden. Viele dieser Erweiterungen sind gerade für die Online-Recherche von hohem Nutzen.

(more…)

Donnerstag, August 31st, 2006

Standesdünkel oder Printkomplex? Die FAZ bedauert jedenfalls in ihrem heutigen Feuilleton auf Seite 35, im Internet recherchiert zu haben. Internetrecherche, tss, na sowas, bäh, Schweinkram, das …

Das Eröffnungskonzert des Kunstfestes Weimar steht seit 2004 unter der Überschrift „Gedächtnis Buchenwald“ und nicht, wie es an zwei Stellen unseres gestrigen Artikels „Gute deutsche Sätze“ irrtümlich hieß, „Gedenken Buchenwald“. Das gesamte Festival trägt auch in diesem Jahr wieder das Motto „pèlerinages“, dessen Schreibweise beim Redigat des gestrigen Berichts unserer Musikredakteurin leider in „pélérinages“ geändert wurde. Wir bedauern die Internetrecherche. [Hervorhebung von mir.] F.A.Z.

Liebe FAZ, vielleicht üben wir das einfach mit der Internetrecherche noch mal, statt gleich das gesamte doofe Internet auf euren Rechnern deinstallieren zu müssen. Das geht nämlich auch anders, bei Fragen zur französischen Rechtschreibung z.B. hier, hier, hier, hier und hier. Dann landet ihr auch nicht mehr auf ~~Schweinkram-~~ so komischen Web-2.0-Seiten bei der Suche nach der korrekten Schreibe von „pèlerinage“.

Donnerstag, August 10th, 2006

Den Computer arbeiten lassen, um aus Datenbanken und Zahlenbergen die exklusive Story zu destillieren: Computer Assisted Reporting (CAR) gehört für die Kollegen in vielen Ländern längst zum Recherche-Alltag. Auch in Deutschland eröffnen uns Informationsfreiheitsgesetze in mittlerweile acht Bundesländern und seit 1.1.06 auf Bundesebene den Zugang zu Datensätzen aus Ämtern und Behörden. Daneben zeigen wir, wie bereits öffentliche Daten gefunden werden und wie man sie verarbeiten kann.
Für CAR muss man kein Computer-Spezialist sein: In diesem dreitägigen Workshop geben wir einen Überblick über die Methoden und ihre Anwendungen. Das Recherchieren mit Hilfe von Excel wird ausführlich trainiert; an Beispielen aus dem In- und Ausland – und an den mitgebrachten Rechercheprojekten der Teilnehmer. Geeignete Projekte und Datensätze werden vorab mit den Teilnehmer besprochen. Zusätzlich gibt es vorab ein paar Excel-Übungen, um die Grundlagen zu vermitteln.

Mit Michael Holm, Dänemark, ehemals Danish International Center for Analytical Reporting (DICAR) und Marcus Lindemann (nr).

an der Akademie für Publizistik, Hamburg

Termin: 30. Oktober bis 1. November

Gebühr: 585 Euro

maximal 10 Teilnehmer

Anmeldung über http://www.akademie-fuer-publizistik.de/

Inhaltliche Rückfragen etc. gerne an
Marcus Lindemann

Freitag, August 4th, 2006

Ach jeh, hat man schon eine schlimmere denglische Überschrift gelesen? Aber es ist ja für einen guten Zweck: Google soll’s verstehen, und die Suchenden auch. Nachrichten-Benachrichtigungen als elektronische Vertriebseinspeisung hätte wohl nicht wirklich seinen Zweck erfüllt. Für diejenigen, die es noch nicht wissen: Was ein RSS-Feed ist, erfährt man hier. Und da mir gerade ein Kollege, der sich gut mit Recherche und den Werkzeugen des so genannten Web2.0 auskennt, erzählte, dass er noch gar nicht wusste, dass man die Google News-Alerts auch per RSS-Feed abonnieren kann, dachte ich mir: weise ich doch auch bei recherche-info.de mal drauf hin. Ist schließlich so lange noch nicht im Angebot.

Inzwischen bieten es aber fast alle Nachrichtensuchmaschinen an (vielleicht einige sogar schon länger als Google, das weiß ich nicht): Bei Google, Yahoo, MSN, Netzeitung findet man den Hinweis auf RSS, Atom oder XML – alles das gleiche, zumindest was die Funktion angeht (Vorsicht: bei manchen erscheint der Knopf erst auf der Ergebnisseite, also wenn man bereits eine Suche ausgeführt hat). Man kann also die Nachrichten-Alarme (wie Web.de sie nennt, das übrigens als einzige der bekannten Nachrichtensuchmaschinen keine Feeds anbietet) im Feed-Reader seiner Wahl abonnieren und bekommt keine E-Mail-Benachrichtigungen mehr.

Ist das eine gute Idee? Das muss jeder selbst entscheiden. RSS ist sicher die eleganteste Versuchung, seit es XML gibt, aber wenn man dann erst mal 30 Feeds abonniert hat, kann es gut sein, dass die gute alte E-Mail im Postkasten wesentlich mehr Aufmerksamkeit auf sich zieht…

Samstag, Juli 1st, 2006

Mit Erstaunen sehen wir, wie sich Halbinformationen in den Medien halten. Daher heute ein kurzer aufklärerischer Eintrag.

Genauso wenig wie Blogs einfach nur “Online-Tagebücher” sind, auch wenn das quasi schon die Standardübersetzung in den Medien ist, stimmt es, dass man zum Hören und Sehen von podcasts und vodcasts einen ipod oder ein anderes Abspielgerät benötigt. Richtig ist natürlich, dass podcasts für diese Geräte produziert werden und mit ihnen gehört werden können.
Niemand aber zwingt mich, podcasts erst von meinem Rechner auf das mobile tragbare Endgerät zu kopieren und dann dort zu hören!

Richtig ist also vielmehr, dass jeder Nutzer eines Rechners mit Hilfe einer entsprechenden Software, podcasts und vodcasts verfolgen kann – eben am eigenen Rechner. (Mindestanforderung: Audiokarte und je nach Software vermutlich Pentium-Rechner oder höher.)
Damit haben diese neuen Formen jetzt schon (!) weit größere Zielgruppen als bislang angenommen. Als ich vor einigen Wochenen einen Podcaster darauf hinwies, dachte er kurz nach und sagte dann, ja das stimmt wohl, das müssen wir unbedingt mal unseren Hörern sagen. Nur, die wissen das vermutlich schon. Bleibt die Frage, wer es denen sagt, die es noch nicht wissen?

Der werte Leser möge denn Test machen und ipod-lose Zeitgenossen auf das Thema podcast ansprechen. Das Erstaunen wird groß sein und die Begeisterung derer, die feststellen, dass sie ihre Lieblingssendung jetzt hören können wann immer sie möchten, ohne vorher ein Aufnahmegerät zu programmieren oder dergleichen, umso größer.

Und wo ist jetzt der Recherchenutzen dieses Eintrags?

Zum einen erleichtert es natürlich die Hintergrundrecherche, die tägliche Mediennutzung (ich sag nur “HR2 Der Tag”) usw. Aber es gibt auch durchaus vod- und podcasts mit etwas scoopability. Ein sehr alter mit dem Zeug zum Klassiker: Der CCC zeigt wie man mit Bordmitteln Fingerabdrücke fälscht 🙂 Sehr schön ibid. die Maus erklärt das Internet.

Donnerstag, Juni 22nd, 2006

Nein, keine Tricks, um an der Kasse vorbeizugehen. Aber es gibt sehr viele Fälle in denen eine Trefferliste schon die wichtigsten Informaitonen enthält und im Rahmen einer Recherche genutzt werden kann. Am Beispiel der größten kommerziellen deutschen Datenbank will ich ein paar Beispiele nennen (die die vergangenes Jahr mit der zweitgrößten fusionierte; hier aber nicht namentlich genannt wird, damit sie nicht auf die Idee kommt, Geld für die Trefferlisten zu kassieren ;-)):

a) Wo stand das nochmal? Also neulich, stand doch im Spiegel diese kleine Notiz über XX, Spiegel online hat’s nicht und eigentlich muss man nun ans Zeitungsregal und blättern. Das ist müssig und die Gefahr, die Seite zu überblättern nicht gering. Daher ein Zwischenschritt: Die Volltextsuche im eigenen Zeitschriftenregal. Der Trefferliste entnehmen wir dann Ausgabe (Nr. und Datum) sowie die Seitenzahl und greifen uns gezielt den gewünschten Artikel aus dem Regal.

b) Für Anfragen beim Handelsregister empfiehlt es sich, beim richtigen Gericht zu fragen und wenn man schon die Handelsregisternummer hat, geht’s schneller. Auch hier helfen einschlägige Datenbanken und liefern diese Informationen schon in der Trefferliste.

c) Richtig spannend wird es, wenn man sich die Spezialdatenbanken und deren Suchoptionen anschaut. Anders als bei der Volltextsuche kann man hier im Rahmen der vorgegebenen Suchoptionen tatsächlich Informationen zusammenstellen, die per Volltextsuche per se nicht zu finden sind – die Zusammenstellung erfolgt ja erst auf die Sucheingabe hin.

Ein Beispiel, die Firmendatenbank bedirect erlaubt es, Firmen nach Umsatz, Mitarbeiterzahl, Branche, Gründungsjahr, Postleitzahl etc. zu suchen. Ein paar Anwendungsideen machen deutlich, welche Goldgrube das für Journalisten ist:
- Welche Unternehmen in unserer Stadt wurden zwischen 1933 und 1945 gegründet?
- Welche Unternehmen in meiner Region haben weniger als 5 oder 10 Mitarbeiter und sollten sich demnachnicht nur freuen sondern auch Jobs schaffen, wenn der Kündigungsschutz gelockert wird?
- Welche Unternehmen haben im nächsten Jahr ein Firmenjubiläum?
- Wo gibt es Zulieferer der Automobilindustrie in unserer Region?
Alles Fragen, bei denen schon die Trefferliste hilft – denn die Firmen selbst stehen im Telefonbuch oder sind im Netz zu finden.

d) Für ausführliche Personenrecherchen lohnt es auch, auf gut Glück einmal zu schauen, wo die Person noch auftaucht. Natürlich funktioniert es nicht, wenn man “Peter Müller” sucht, denn ob der saarländische Ministerpräsident tatsächlich hinter einem der 2355 Treffer im Handelsregister steckt, lässt sich so nicht klären. Bei selteneren Namen wird es allerdings spannender (Beispiel folgt ggf. nach Abschluß der Recherche).

Die Liste dieser Ideen läßt sich fortsetzen, posted Eure Anregungen!

Mittwoch, Juni 7th, 2006

Das Weblog “Aharef – Das Link-Salz in der Web-Suppe” offeriert einen attraktiven, alternativen Blick auf Webpages: Ein Java-Applet untersucht den Quellcode und zeigt die Link-Struktur einer Webseite als hübsches Farbbild an, wobei die unterschiedlichen Tags als farbige Punkte gezeigt werden. Beispiel hier: Recherche-info.de

Weitere Beispiele dafür findet man unter dem Flickr-Tag websitesasgraphs, bei Digg gibt es zwei Diskussionsgruppen: Visualizing_the_DOM_Structure_of_Websites und Artist_sells_numbers_as_paintings_on_the_web.

Ich halte das ganze für ein nettes Gimmick, das die Komplexität einer Seite sichtbar macht. Wo aber (vom Spaßfaktor abgesehen) ein echter Nutzen steckt, darüber muss ich noch meditieren. Vorschläge?

PS: Der Service wird Websites as Graphs genannt, aber es handelt sich stets nur um die Abbildung einer einzelnen Webpage (man kann statische URLs ansteuern). Informationen über Websites liefern die Abbildungen nicht; zwischen internen und externen Verlinkungen wird nicht unterschieden (schade!).

Erläuterung zu den Farben: Blau: Verlinkungen (Tags: a) Rot: Tabellen (Tags: table, tr, td) Grün: Division (Tags: div) Violett: Bilder (Tags: img) Gelb: Formulare (Tags: form, input, textarea, select, option) Orange: Absätze, Zeilenwechsel und Blockzitate (Tags: p, br, blockquote) Schwarz: Das HTML-Tag, Start der Untersuchung (Tags: html)

Grau: alle anderen Tags

Direkt neben dem schwarzen Punkt findet sich bei vielen Bildern eine konzentrische Anhäufung grauer Punkte, die an die Dolde einer Pusteblume erinnert. Dabei handelt es sich um die Tags im HTML-Header.

PPS: Der Quellcode des Applets ist veröffentlicht. Damit der Service funktioniert, muss das Java Runtime Environment nutzerseitig laufen.

Samstag, Mai 27th, 2006

Ein lesenswertes Interview mit dem Laborleiter der Suchmaschine ask.com, Antonio Gulli, hat die Technology Review online: „Das wichtigste sind die ersten zehn Treffer“.

Schon im März stand in der TR, welche Rolle ask.com beim Suchen ohne Googlen zukünftig spielen könnte.

Sonntag, Mai 21st, 2006

Albrecht stellt eine ausgearbeitet Version seines Vortrags ein, sobald er dazu kommt.

Sonntag, Mai 21st, 2006

Henk demonstriert einige Methoden, mit deren Hilfe man einschätzen kann, wie zuverlässig die Informationen auf einer Website sind. Schönes Beispiel: Welchen biografischen Informationen über Martin Luther King kann man trauen? Er zeigt erstmal nur die Web-Adressen (URLs) der Seiten:

martinlutherking.org martinlutherking.tk 213.198.79.178/members9/~melski/martinlutherking.htm

www.psd267.wednet.edu/~kfranz/SocialStudies/MLKJr/martinlutherking.htm – die 213.198.79.178/etc.-Adrese ist unvollständig; wird nachgereicht, sobald Henk seine Präsentation schickt. (more…)
26. Mai 2008
Journalismus & Recherche » Desktopsuche

Die so genannte Desktop-Suche ist ja inzwischen ein veritables Feld innerhalb der Recherche geworden – bei dem ganzen Zeug’s, das man auf dem Rechner hat. Vor ewigen Zeiten (heißt: vor ca. sechs Jahren) hatte Altavista mal ein Programm zur Verfügung gestellt, das den eigenen Computer durchsucht. Irgendwann, als ich es nötig brauchte, weil meine Festplatte anschwoll, war es verschwunden und nicht mehr zu bekommen. Eine Desktop-Suchmaschine musste also erst wieder von Google auf den Markt gebracht werden, um den Nutzern zu zeigen, dass man sowas braucht (zwischendurch gab es schon das immer noch herausragende Copernic Desktop Search – beides selbstverständlich nur für den PC). So sieht die viel gerühmte Innovationsmaschine Google eben auch manchmal aus.

Und Apple passt da auch ins Bild: Jahre nach Copernic wird Spotlight in Apples OS X (10.4, “Tiger”) als das Ei des Kolumbus gefeiert. Man muss schon Steve Jobs heißen, um das bringen zu können. Nun bin ich ja seit einigen Monaten auf ein Powerbook umgestiegen und brauche diese Funktion auch. Und was passiert? So gut wie nichts. Spotlight will nämlich nicht. Findet fast nur Dateien, in denen der Suchbegriff im Namen vorkommt. Also erstmal die Apple-schlauen Kollegen interviewt. Keiner weiß was – bei ihnen funktioniert’s natürlich. So war das in der PC-Welt auch schon immer: mein Computer-Karma muss ich irgendwann mal versehentlich in der Toilette runtergespült haben.

Das Ärgerliche: Auch nach ewigem Suchen findet man in der Hilfe aber auch überhaupt keinen Hinweis darauf, wie man manuell das Indexieren anstoßen oder neu starten kann. Ebensowenig auf der Website. Lausig. Die gute Frau am Apple-Telefon hatte auch keinen Schimmer, gab aber wenigstens den Tipp, mal in den Foren zu suchen. Das hatte ich zwar schon erfolglos gemacht, aber wie’s eben immer so ist mit der Suche: Wenn man nicht weiß, wonach man suchen soll, findet man auch nix. Hier war der Knackpunkt, dass man nicht nach “index” suchen sollte, sondern eher nach “Keyword/s”. Am Ende hat dann “Spotlight” gereicht (ja, ist mir ja auch peinlich, aber die Apple-Experten waren auch nicht drauf gekommen). Gleich einer der ersten Threads beantwortet die Frage einfach und zufrieden stellend:

Spotlight > Einstellungen > Privatsphäre > eigenes Volume eintragen (damit wird verhindert, dass es indexiert wird)

abmelden > neu anmelden – nun ist die Indexierung abgeschaltet

Spotlight > Einstellungen > Privatsphäre > eigenes Volume wieder entfernen

abmelden > neu anmelden – nun ist die Indexierung wieder eingeschaltet und wird neu gestartet

Und siehe da: Es funktioniert.

23. Mai 2008
Journalismus & Recherche » Enten & Stilblüten

Ein Eintrag, der ~~nichts~~ wenig mit Recherche im Sinne von nachschlagen oder rausfinden zu tun hat. Manchmal muss man eine Meldung gar nicht recherchieren, um zu entscheiden, sie nicht zu drucken ;-)Die Leipziger Volkszeitung berichtetet am 27.6. auf Seite 1 in einem Leitartikel folgendes:

Weniger Wettbewerb. Gesundheitsfonds beschlossen.

Berlin/Leipzig (DW/H.E.). Die Koalition hat sich auf erste Eckpunkte der Gesundheitsreform verständigt. Ein zentraler Einigungspunkt ist, so bestätigten Regierungskreise gegenüber der LVZ, die Konzentration der gesetzlichen Kassen auf eine wettbewerbsfähige “Mindestbetriebsgröße”. Sollte es zu einer Mindestmitgliederzahl von einer Million Versicherter kommen, wie auch diskutiert wird, würde sich die Zahl der Kassen um 110 bis 120 verringern. Durch Fusionen würde sich die Kassenstruktur verschlanken und weniger Verwaltungskosten verursachen.

(Kostenlos online ist nur die ots-Vorabmeldung.)

Klar, ein Thema und noch nichts, was einen auf den ersten Blick wundern müßte. Die google Recherche “Anzahl Krankenkassen Deutschland” bringt dann auf Rang 1 den Wikipedia-Eintrag “Krankenkasse”, der die Information enthält, es gebe 253 gesetzliche Krankenkassen. Eine Zahl, die die google-Suche “253 gesetzliche Krankenkassen” bei der KKH, spiegel.de und dem Marburger Bund bestätigt und die auch wohl aktuell ist. Wir wissen nicht, wie tagesschau.de dann auf zunächst 252 kommt, vielleicht eine Info aus dem angefragten Ministerium? Egal ist auch wurscht.

Aber mit der Recherche dieser Zahl wird der Unsinn klar, der der LVZ zumindest noch nicht zwingend auffallen mußte. Nun lautet die Meldung, die tagesschau.de unter Berufung auf die LVZ bringt, 110 bis 120 von 252/253 gesetzlichen Krankenkassen müssten ggf. schließen, damit nur noch solche übrig bleiben, die mindestens eine Million Mitglieder haben.

Also wenn maximal 133 Krankenkassen (253-120=133) verbleiben, benötigen diese mindestens 133 Millionen Mitglieder (133*1 Million= 133 Millionen) – eine Zahl, die auch ohne die Berücksichtigung von Privatversicherten, Beamten, Unversicherten und Mitversicherten, von der Berücksichtigung großer Kassen mit mehreren Millionen Mitgliedern mal ganz abgesehen, in Deutschland einfach nicht erreicht werden kann.

Disclaimer: Mir ist die Meldung nur einzig und allein deshalb aufgefallen, weil ich mich beim Lesen der Schlagzeile im RSS-Feed, sofort an die Geschichte des hochverehrten Bildblog erinnerte. Wofür die mir jetzt vermutlich noch ’ne Rechnung für in Anspruch genommene Fortbildung stellen. Recht haben sie ja: Lesen hilft. Hauptsache Habermas hat seinen Spaß.

tageschau.de hat die Meldung im Laufe des Tages mehrfach geändert – allerdings ohne den Zeitstempel zu ändern. Was man dort auch als Fehler ansieht. Wer Spaß dran hat, hier ist gleich noch einer zu finden, solange der Text und Zeitstempel (Stand: 01.07.2006 09:25 Uhr) unverändert bleiben.

16. Mai 2008
Journalismus & Recherche » Metadaten

Der “Robots Exclusion Standard” aus Rechercheursperspektive

Die Arbeitsweise aller Suchmaschinen beim Auffinden neuer Webseiten ist unspektakulär: Spezielle Programme, Robots, Bots oder Spider genannt, durchsuchen bekannte Webseiten nach Hyperlinks und laden die dadurch gefundenen Seiten via HTTP, um sie entweder in die Datenbank der Suchmaschine aufzunehmen, oder um sie in gleicher Weise zu durchsuchen. Konzeptionell ist dieser Vorgang ist bei allen Suchmaschinen wenig unterschiedlich (sie variieren vor allem in der Suchfrequenz und den zur Kenntnis genommenen Dateitypen).

Fast jede Website hat Dateien oder Verzeichnisse, die für eine Suchmaschine nicht von Interesse sind, zum Beispiel Hintergrundgrafiken, Logos, Buttons, Longdesc-Texte usw. Andere, zum Beispiel in Framesets verwendete Navigationsspalten, soll eine Suchmaschine zwar nach deren Links durchsuchen, sie aber nicht selbst im Index aufführen, da die Navigationsspalte für sich genommen inhaltsleer ist – sie verweist ja nur auf die Inhaltsseiten. Das Wissen um diese Details hat selbstverständlich der Webadmin der entspechenden Site.

Um die Kommunikation zwischen Webadmins und Suchmaschinen zu ermöglichen und zu systematisieren, wurde nach Diskussionen in einer Mailingsliste der Robots Exclusion Standard (RES) geschaffen. Er wurde niemals in den Kanon der RFC oder anderer Normensammmlungen aufgenommen, wird aber sehr häufig beachtet. Am wichtigsten ist vielleicht, dass die Wayback Machine den RES anwendet.

Webmaster haben zwei Möglichkeiten, den RES zu nutzen: Sie können eine Datei robots.txt erstellen, und sie können in jeder HTML-Seite Metatags anbringen.

Die Datei robots.txt

Die Datei “robots.txt” (deren Name aus Kompatibilitätsgrunden die 8/3-Konvention für Dateinamen einhält) muss als ASCII-Textdatei im Stammverzichnis der Website liegen. Ihr URL lautet also immer “http://[domain]/robots.txt”.

In ihr kann der Webadmin festlegen, welche Dateien und Verzeichnisse der Spider ignorieren soll. Dabei kann er Wildcards einsetzen und Anweisungen an bestimmte Spider geben, sofern deren Bezeichnungen bekannt sind.

Wenn ein Spider diese Datei liest und beachtet, werden bestimmte Dateien und Verzeichnisse also gar nicht erst an den Spider übertragen.

Die RES-Metatags

Zusätzlich kann in jede HTML-Datei der Metatag “meta name=’robots’ content=’index,follow’” geschrieben werden. Dieser richtet sich unterschiedlos an alle Spider und setzt voraus, dass die entsprechende Datei übertragen und ihre Inhalte verarbeitet wurden. Die möglichen Angaben ‘index’/’noindex’ geben an, ob die Inhalte der Seite indiziert werden sollen, ‘follow’/’nofollow’ bezieht sich auf die Nachverfolgung von Hyperlinks. Soweit die Theorie…

Praktische Auswirkungen

Der immanente Widersinn des RES liegt auf der Hand: Es muss explizit genannt werden, was verschwiegen sein soll. Zum einen halten sich nicht alle Suchmaschinen an den RES, sei es, dass sie ihn ignorieren, sei es, dass sie gar die robots.txt gezielt auswerten.

Zum Zweiten ist der RES ursrpünglich gedacht, um Suchmaschinen von Dateien fernzuhalten, die sie ohnehin nicht benötigen: Grafiken ohne wirklichen Inhalt oder Skripten im Verzeichnis “/cgi-bin” etwa. Spätestens aber, seit archive.org die robots.txt auswertet, um zu erfahren, was nicht (öffentlich zugänglich) archiviert werden soll, müssen Webadmins auch sensible Informationen bekannt geben. Das macht die robots.txt für Rechercheure interessant. Schon allein, weil man mit einem Blick feststellen kann, ob der Verantwortliche den Unterschied zwischen einer unverbindlichen Nachricht an Spider und einem Passwordschutz für Verzeichnisse (der ja auch Suchmaschinen aussperrt) kennt.

Das Beispiel

Das wird klar, wenn man einen Blick in die robots.txt des Weißen Hauses wirft. (Um deren Webadmin nicht durch zu viele Klicks zu beunruhigen, verlinke ich hier auf eine lokal gespeicherte Kopie dieser Datei vom 14. Mai).

Auffällig ist, dass der Webadmin des Weißen Hauses vor allem die Texte der Website aus öffentlichen Suchmaschinen und der Wayback Machine heraushalten möchte.

Wohlvermerkt: Es ist nicht unsinnig, dass die Site des Weißen Hauses den RES nutzt: Für den (vermutlich regierungsinternen) Spider namens “whsearch” sind die “Disallow”-Zeilen sehr viel weniger, und dem Anschein nach sinnvoll für eine umfassende Textsuche.

Seine Anwendung ist aber unüberlegt. Stellvertretend für viele andere Websites liefert die robots.txt des US-Präsidenten quasi eine Übersicht über heikle Inhalte. Aus technischer Perspektive ist dies Vorgehen unsinnig. Die Verantwortlichen hätten den Webserver so konfigurieren können, dass z.B. nur Anfragen von bestimmten IP-Adressen erfolgreich sind, während allen anderen (inklusive Suchmaschinen) Fehlermeldungen oder unsensible Inhalte geliefert werden.

Fazit: Beim Durchleuchten einer Website ist ein Blick in die robots.txt (oder deren Beobachtung z.B. durch Webdienste wie Changenotes obligat. Insbesondere kann die Datei Hinweise liefern, welche Inhalte die Betreiber einer Website als heikel ansehen, wenn sie nicht sogar eine ‘alternative Navigation’ ermöglicht.

[AUde]

13. Mai 2008
Journalismus & Recherche » Blog Archive » CAR-Workshop mit Michael Holm in Hamburg (30.10. – 1.11.)

Den Computer arbeiten lassen, um aus Datenbanken und Zahlenbergen die exklusive Story zu destillieren: Computer Assisted Reporting (CAR) gehört für die Kollegen in vielen Ländern längst zum Recherche-Alltag. Auch in Deutschland eröffnen uns Informationsfreiheitsgesetze in mittlerweile acht Bundesländern und seit 1.1.06 auf Bundesebene den Zugang zu Datensätzen aus Ämtern und Behörden. Daneben zeigen wir, wie bereits öffentliche Daten gefunden werden und wie man sie verarbeiten kann.
Für CAR muss man kein Computer-Spezialist sein: In diesem dreitägigen Workshop geben wir einen Überblick über die Methoden und ihre Anwendungen. Das Recherchieren mit Hilfe von Excel wird ausführlich trainiert; an Beispielen aus dem In- und Ausland – und an den mitgebrachten Rechercheprojekten der Teilnehmer. Geeignete Projekte und Datensätze werden vorab mit den Teilnehmer besprochen. Zusätzlich gibt es vorab ein paar Excel-Übungen, um die Grundlagen zu vermitteln.

Mit Michael Holm, Dänemark, ehemals Danish International Center for Analytical Reporting (DICAR) und Marcus Lindemann (nr).

an der Akademie für Publizistik, Hamburg

Termin: 30. Oktober bis 1. November

Gebühr: 585 Euro

maximal 10 Teilnehmer

Anmeldung über http://www.akademie-fuer-publizistik.de/

Inhaltliche Rückfragen etc. gerne an
Marcus Lindemann

12. Mai 2008
Journalismus & Recherche » Urteile

Ist zwar schon eine Weile her, aber besser spät als nie. Beim Chaos Communication Congress hat Udo Vetter, Fachanwalt für Strafrecht aus Düsseldorf, einen Vortrag mit dem Titel „ Sie haben das Recht zu schweigen: Durchsuching, Beschlagnahme, Vernehmung – Strategien für den Umgang mit Polizei und Staatsanwalt“ gehalten. Ist ein langer Riemen, daher hat es auch so lange gedauert, bis er hier erscheint, aber absolut lesens- bzw. wissenswert. (Mehr Links folgen noch.)

Vetter, Autor des sehr viel gelesenen Lawblogs, erläuterte, wie Situationen zu meistern sind, mit denen die meisten von uns wohl eher keine Erfahrung haben und daher auch nicht wüssten, wie man sich im Zweifel „richtig“ verhält. Meiner Ansicht nach ist das ein Thema für Recherche-Info.de, weil die Ermittlungsbehörden bekanntlich inzwischen auch bei Journalisten eine beunruhigende Aktivität entfalten. Der Fall Cicero wird vielleicht ein wenig strapaziert, aber er ist nicht das einzige Beispiel. Betroffen sind auch nicht nur „investigative“ Journalisten.

„Nehmen Sie das Recht zu schweigen in Anspruch. Damit ist der Vortrag beendet“ – so begann Vetter seinen Vortrag, doch es war mehr als nur ein amüsante Einstieg zu verstehen, denn der Ratsschlag bildete auch gleich das Motiv des Vortrags, das Vetter in einigen Variationen durchspielte.
(more…)

11. Mai 2008
Journalismus & Recherche » Zahlen

vorab: Lieber Sebastian Wolff von der Berliner Zeitung, es tut mir ein wenig leid, dass ich Sie hier tadele, denn genauso gut könnte ich jeden Tag in jeder deutschen Zeitung einen Artikel herausgreifen und dafür kritisieren,
dass er einzig und allein auf einer einzigen Quelle beruht.

In Ihrem Fall auf Angaben des Gesamtverband der Deutschen Versicherungswirtschaft (GDV). Zu Gute halten möchte ich Ihnen, dass Sie sich erst gar nicht die Mühe machen, das zu verschleiern. Damit nicht alle den Text lesen müssen: Der GDV beklagt sich, dass Internetbetrüger den Versicherungen das Leben schwer machen und Schaden zufügen. Als Beispiel wird angeführt, dass Schmuck bei Ebay angeboten ~~wird~~ würde (sic!) und diesem Wertzertifikate über einen viel höheren Preis beiliegen – letztere würden dann den Versicherungen vorgelegt, wenn ersterer gestohlen gemeldet wird

Ich habe mir den Artikel direkt nach der Lektüre ausgerissen, um ihn am Mittwoch den Volontären im Rechercheseminar vorlegen zu können – damit die ja nicht denken, dass mit den Ein-Quellen-Artikeln sei ein theoretisches Phänomen.

Was ist denn so schlimm daran, möchten Sie fragen? Naja, der Leser zahlt ja dafür, dass Sie sich etwas Arbeit machen, aber in diesem Fall hätten Sie doch besser einfach nur einen Nachdruck mit dem Verbandsmagazin abgemacht, das das Thema, wie Sie ja auch anführen, bereits in einem Artikel aufgegriffen hatte. Wobei, werter Kollegen, einige Passagen hart an der Grenze zum Plagiat sind.

Und da ich als Leser ja schon mal dafür bezahlt habe, dass Sie etwas mehr leisten, verrate ich Ihnen nicht nur, was ich mir noch gewünscht hätte, sondern was ich eigentlich für schlichtes Handwerkszeug halte. (Nicht dass Sie Leserforschung betreiben und mein Aboentgelt wieder nicht in die Redaktion wandert.)

Abgesehen davon, dass der Artikel in sich widersprüchlich ist, indem er zum einen behauptet, dass es keine Zahlen gäbe, zum anderen aber sagt, die Zahl solcher Delikte sei gestiegen – hierauf hat ja der Kollege Kunze schon aufmerksam gemacht -abgesehen davon also stellen sich nach der Lektüre des Textes mehr Fragen als der Artikel vermeintlich beantwortet hat.

Ein paar Ideen ohne Anspruch auf Vollständigkeit:

1.) Gibt es das Massenphänomen überhaupt? (Wieviel Schmuck mit Zertifikaten, die Wertangaben enthalten, finden Sie bei Ebay?)

2.) Wie kommen die Versicherer dazu, solchen Zertifikaten glauben zu schenken? (müssen Sie ja auch nicht) So ein Zertifikat ist ja kein Zahlungsbeleg – im Gegensatz zu Quittungen oder Kassenbons, die Versicherungen sonst so verlangen.

3.) Plausibilität: Die meisten Hausratversicherungen begrenzen die Versicherung von Wertsachen wie Schmuck.

Schon diese kleine Denksportaufgabe hätte mich so skeptisch gemacht, dass ich das Thema entweder liegen gelassen hätte oder erst recht recherchiert hätte.

Tja. So nun aber sieht es einfach so aus, dass der GDV seine jährliche Oh-wie-schlimm-ist-Versicherungsbetrug-PR-Meldung loswerden wollte und dachte mit der Internetkriminalität als Aufhänger kommt das sicherlich besser an. Und: Bei Ihnen ist das ja auch angekommen. Glückwunsch, lieber GDV!

PS: Liebe Leser, sagt’s den Volos nicht – sonst ist der ganze Spaß hin 😉

10. Mai 2008
Journalismus & Recherche » Watchblog

vorab: Lieber Sebastian Wolff von der Berliner Zeitung, es tut mir ein wenig leid, dass ich Sie hier tadele, denn genauso gut könnte ich jeden Tag in jeder deutschen Zeitung einen Artikel herausgreifen und dafür kritisieren,
dass er einzig und allein auf einer einzigen Quelle beruht.

In Ihrem Fall auf Angaben des Gesamtverband der Deutschen Versicherungswirtschaft (GDV). Zu Gute halten möchte ich Ihnen, dass Sie sich erst gar nicht die Mühe machen, das zu verschleiern. Damit nicht alle den Text lesen müssen: Der GDV beklagt sich, dass Internetbetrüger den Versicherungen das Leben schwer machen und Schaden zufügen. Als Beispiel wird angeführt, dass Schmuck bei Ebay angeboten ~~wird~~ würde (sic!) und diesem Wertzertifikate über einen viel höheren Preis beiliegen – letztere würden dann den Versicherungen vorgelegt, wenn ersterer gestohlen gemeldet wird

Ich habe mir den Artikel direkt nach der Lektüre ausgerissen, um ihn am Mittwoch den Volontären im Rechercheseminar vorlegen zu können – damit die ja nicht denken, dass mit den Ein-Quellen-Artikeln sei ein theoretisches Phänomen.

Was ist denn so schlimm daran, möchten Sie fragen? Naja, der Leser zahlt ja dafür, dass Sie sich etwas Arbeit machen, aber in diesem Fall hätten Sie doch besser einfach nur einen Nachdruck mit dem Verbandsmagazin abgemacht, das das Thema, wie Sie ja auch anführen, bereits in einem Artikel aufgegriffen hatte. Wobei, werter Kollegen, einige Passagen hart an der Grenze zum Plagiat sind.

Und da ich als Leser ja schon mal dafür bezahlt habe, dass Sie etwas mehr leisten, verrate ich Ihnen nicht nur, was ich mir noch gewünscht hätte, sondern was ich eigentlich für schlichtes Handwerkszeug halte. (Nicht dass Sie Leserforschung betreiben und mein Aboentgelt wieder nicht in die Redaktion wandert.)

Abgesehen davon, dass der Artikel in sich widersprüchlich ist, indem er zum einen behauptet, dass es keine Zahlen gäbe, zum anderen aber sagt, die Zahl solcher Delikte sei gestiegen – hierauf hat ja der Kollege Kunze schon aufmerksam gemacht -abgesehen davon also stellen sich nach der Lektüre des Textes mehr Fragen als der Artikel vermeintlich beantwortet hat.

Ein paar Ideen ohne Anspruch auf Vollständigkeit:

1.) Gibt es das Massenphänomen überhaupt? (Wieviel Schmuck mit Zertifikaten, die Wertangaben enthalten, finden Sie bei Ebay?)

2.) Wie kommen die Versicherer dazu, solchen Zertifikaten glauben zu schenken? (müssen Sie ja auch nicht) So ein Zertifikat ist ja kein Zahlungsbeleg – im Gegensatz zu Quittungen oder Kassenbons, die Versicherungen sonst so verlangen.

3.) Plausibilität: Die meisten Hausratversicherungen begrenzen die Versicherung von Wertsachen wie Schmuck.

Schon diese kleine Denksportaufgabe hätte mich so skeptisch gemacht, dass ich das Thema entweder liegen gelassen hätte oder erst recht recherchiert hätte.

Tja. So nun aber sieht es einfach so aus, dass der GDV seine jährliche Oh-wie-schlimm-ist-Versicherungsbetrug-PR-Meldung loswerden wollte und dachte mit der Internetkriminalität als Aufhänger kommt das sicherlich besser an. Und: Bei Ihnen ist das ja auch angekommen. Glückwunsch, lieber GDV!

PS: Liebe Leser, sagt’s den Volos nicht – sonst ist der ganze Spaß hin 😉

10. Mai 2008
Journalismus & Recherche » USA

Der Pragmatismus der US-Amerikaner ist sprichtwörtlich, dennoch kann mich manche Erscheinungsform davon noch überraschen. Mark Cuban, der mit Broadcast.com, einem Dienst zur Videoübertragung über das Internet, reich geworden ist, hat angekündigt, die Website sharesleuth.com zu finanzieren. Die Site ist die Idee von Chris Carey, einem ehemaligen Reporter des St. Louis Post-Dispatch. “Sie wird eine Art Nachrichen-Weblog sein und soll Wertpapierbetrug und rechtswidriges Handeln in Unternehmen aufdecken”, wird Carey bei Cnet zitiert. “Wir werden fragwürdige Unternehmen beim Namen nennen und interessante, intensiv recherchierte Geschichten über die Menschen dahinter veröffentlichen”, so Carey weiter.

Dieses Vorhaben will nun also Mark Cuban unterstützen, in den USA als “Maverick” berühmt, als eigensinniger Außenseiter. Eine gute Nachricht für den investigativen Journalismus, wie manche finden, denn der ist auch in den USA ziemlich auf den Hund gekommen.

Doch die Geschichte hat noch eine andere Seite. Womit wir beim Pragmatismus wären. Cuban will die Infos, die sharesleuth.com ausgräbt, gern als erster auf dem Tisch haben, um auf ihrer Basis Kaufentscheidungen zu treffen. Problematisch? “Wie unterscheidet sich das von den Kommentatoren bei CNBC, Fox News, Bloomberg und so weiter, die Aktien kaufen oder verkaufen, um dann auf den Sender zu gehen und darüber zu diskutieren, warum sie diese Entscheidungen getroffen haben?”, kommentierte Cuban seine Pläne in einer e-Mail an Cnet. Und, so Cuban weiter: “Ist der schlaue Anleger nicht der, der erst recherchiert und dann über Kauf oder Verkauf entscheidet? Wir werden das gleiche tun, nur veröffentlichen wir, was wir herausgefunden haben.”

Da machen sich Finanzpublikationen viele Gedanken darüber, wie sie Interessenkonflikte vermeiden können und erlassen Richtlinien dazu, welche Aktien ihre Redakteure besitzen dürfen und welche nicht, und dann wirft das Internet das alles über den Haufen, weil nun jeder publizieren kann. Und man kann sich darauf verlassen, dass Investoren demnächst häufiger bei sharesleuth.com vorbeischauen werden. Sehr spannend, das alles.

10. Mai 2008

Monat: Mai 2008

Die Datei robots.txt

Die RES-Metatags

Praktische Auswirkungen

Das Beispiel