Kategorie: Allgemein

  • So lassen sich die meisten 404-Fehler umgehen – Journalismus & Recherche

    Mir passiert es jede Woche – eine Seite (page) auf die ich zugreifen möchte, zeigt mir die Fehlermeldung „Dieser Inhalt ist nicht mehr vorhanden.“ (404), dass ich dann den Inhalt nicht doch nicht noch aufrufen kann, ist äußerst selten und hat seine Gründe (s.u.)

    Seit über 25 Jahren erzähle ich in meinem Seminaren schon, wie man dennoch an die Inhalte kommt – egal ob ein verwaister Link oder eine Suchmaschine auf die Seite mit der Fehlermeldung geführt hat. Und dennoch führt das in allen Redaktionen immer noch zu Erstaunen, wenn Volontär oder Praktikant das hinkriegen. ich bitte dann immer, darauf hinzuweisen, dass sie das an der Journalistenschule, der Volontärsausbildung oder einem Seminar gelernt haben. Der Leiter einer Journalistenschule hatte sogar mal die Hoffnung, dass die Redakteure dann eines Tages merken, dass ihnen Handwerkszeug fehlt und sie vielleicht mal ein Seminar besuchen sollten.

    Allein, das passiert nicht, seit 20 Jahren nicht. Redakteure rufen lieber den Informatik-Professor der lokalen Hochschule an, ob man da noch etwas machen könne, bei so einem 404-Fehler oder ob der Inhalt verloren sei. Das ist quasi schon immer so – seit ich im Internetrecherche unterrichte – heuer seit immerhin 25 Jahren!

    Und wie geht das nun?

    1. Wenn man über eine Google-Suche auf die 404-page kam, einfach zurück in die Ergebnisseite (SERP, search-engine-result-page) und dort auf die drei Punkte neben der URL klicken, ein Fenster öffnet sich und dort findet man unten rechts den Link „Im Cache“ (cached). Der führt zu der letzten Kopie, die Google von dieser Seite gemacht und auf googleusercontent.com abgelegt hat.
    2. Wenn das mal nicht funktioniert oder der verwaiste Link aus einer anderen Quelle stammt, hilft sehr häufig, den gesamten Link bei archive.org einzugeben.
    3. Wenn das nicht hilft ist für mich archive.today die nächste Station.
    4.  Auch andere Suchmaschinen haben einen eigenen Cache, Bing zum Beispiel. Da die Crawler der Suchmaschinen unabhängig voneinander arbeiten (wenn es denn eigenständige Suchmaschinen sind und nicht solche, die auf den Index anderer zugreifen), wäre es ein enormer Zufall, wenn eine Seite nahezu zum gleichen Zeitpunkt indexiert worden wäre.
    5. Danach wird es mühselig: Hat vielleicht ein anderer Nutzer einen Screenshot gemacht? Kann ich den finden?

    Warum funktioniert das mit dem Cache nicht bei allen Domains? Weil einige Domains das schlichtweg nicht wollen und Google zwar erlauben, die eigenen Seiten in den Index aufzunehmen, nicht aber, diesen auch den Nutzern anzuzeigen. Das kann z.B. sinnvoll sein, wenn juristisch relevante Fehler korrigiert wurden und die korrigierte falsche Information nicht mehr aufrufbar sein soll.

    Kleiner Disclaimer: Diese Seite wird immer mal wieder zu einem 404-Fehler führen, damit meine Seminarteilnehmer etwas zum Ausprobieren haben. Aber keine Sorge, sie ist dann sicher noch in Suchmaschinen-Caches und bald hoffentlich auch im Internet-Archiv.

  • “Deep Search” – Politik des Suchens jenseits von Google – Journalismus & Recherche

    Das Buch liegt bereits seit Monaten auf dem Tisch, aber wie es eben leider oft so ist – mir ist etwas dazwischen gekommen auf dem Weg zur Rezension. Die hat aber inzwischen zum Glück Philipp Albers für die Sendung Breitband in Deutschlandradio Berlin geliefert (auch schon wieder mehr als eine Woche her…):

    Die digitale Explosion konfrontiert uns seit Jahren mit einem regelrechten Daten-Tsunami. Die Suchmaschinen sind es, die uns helfen, diesen Tsunami zu beherrschen. Das Verheerende: Was wir über die Welt wissen, erfahren wir fast immer durch Google. Anders gesagt: Was Google nicht findet, existiert für viele Menschen nicht. Mit dieser Situation und ihren Implikationen beschöftigen sich Medientheoretiker, Kulturwissenschaftler, Soziologen und Politologen im Sammelband “Deep Search – Politik des Suchens jenseits von Google”.

    • Konrad Becker / Felix Stalder (Hrsg.): “Deep Search: The Politics of Search beyond Google”, StudienVerlag & Transaction Publishers, Wien 2009. 216 Seiten, 24,90 €
    • Konrad Becker/ Felix Stalder (Hrsg.): “Deep Search: Die Politik des Suchens jenseits von Google”, Studienverlag & Transaction Publishers, Wien 2009. ca. 220 Seiten, 24,90 €

    Hier der Beitrag zum Anhören:

    Die MP3 zum Runterladen (3,4 MB)

  • Handbuch Internet-Suchmaschinen – Journalismus & Recherche

    Eine sehr empfehlenswerte Neuerscheinung dieses Jahres: Handbuch Internet-Suchmaschinen : Nutzerorientierung in Wissenschaft und Praxis / Hrsg. Dirk Lewandowski. – Heidelberg : Aka, 2009. – VIII, 409 S. : Ill., graph. Darst. ; 25 cm ISBN 978-3-89838-607-4 Pp. : EUR 60.00

    Hier die Titelaufnahme der Deutschen Bibliothek mit Inhaltsverzeichnis (PDF-Datei, 2 S., 248 KB) und Inhaltstext (vom Verlag).

    Die einzelnen Kapitel (Ausnahme: Vorwort / Dirk Lewandowski) gibts als PDFs bei E-LIS:
    I. Suchmaschinenlandschaft
    Der Markt für Internet-Suchmaschinen / Maaß, Christian ; Skusa, Andre ; Heß, Andreas ; Pietsch, Gotthard (S. 3-17)
    Typologie der Suchdienste im Internet / Griesbaum, Joachim ; Bekavac, Bernard ; Rittberger, Marc (S. 18-52).
    Spezialsuchmaschinen / Lewandowski, Dirk (S. 53-69).
    Suchmaschinenmarketing / Schultz, Carsten D. (S. 70-98).
    II. Suchmaschinentechnologie
    Ranking-Verfahren für Web-Suchmaschinen / Dopichaj, Philipp (S. 101-115).
    Programmierschnittstellen der kommerziellen Suchmaschinen / Tosques, Fabio ; Mayr, Philipp (S. 116-147).
    Personalisierung der Internetsuche – Lösungstechniken und Marktüberblick / Riemer, Kai ; Brüggemann, Fabian (S. 148-171).
    III. Nutzeraspekte
    Methoden der Erhebung von Nutzerdaten und ihre Anwendung in der Suchmaschinenforschung / Höchstötter, Nadine (S. 175-203).
    Standards der Ergebnispräsentation / Lewandowski, Dirk ; Höchstötter, Nadine (S. 204-219).
    Universal Search: Kontextuelle Einbindung von Ergebnissen unterschiedlicher Quellen und Auswirkungen auf das User Interface / Quirmbach, Sonja (S. 175-203).
    Visualisierungen bei Internetsuchdiensten / Weinhold, Thomas ; Bekavac, Bernard ; Hierl, Sonja ; Öttl, Sonja ; Herget, Josef (S. 249-282).
    IV. Recht und Ethik
    Datenschutz bei Suchmaschinen / Weichert, Thilo (S. 285-300).
    Moral und Suchmaschinen / Weber, Karsten (S. 301-325).
    V. Vertikale Suche
    Enterprise Search – Suchmaschinen für Inhalte im Unternehmen / Bahrs, Julian (S. 329-355).
    Wissenschaftliche Dokumente in Suchmaschinen / Pieper, Dirk ; Wolf, Sebastian (S. 356-374).
    Suchmaschinen für Kinder / Zens, Maria ; Siller, Friederike ; Vollmers, Otto (S. 375-402). Bücher & Publikationene-PrintsHandbuch Internet Suchmaschinen

  • Präsentationen der nr-Jahrestagung (Archiv) – Journalismus & Recherche

    Wie versprochen hier die Präsentationen der Vorträge/Workshosps/Lessons auf der Jahrestagung des netzwerk recherche in Hamburg. Fact-Checking im Internet (Marcus Lindemann) Datei folgt leider erst kommende Woche, derzeitige Fassung ist, selbst in 2 Teilen zu groß für das CMS.

    Archiv:

    Christina Elmer, RSS-Feeds – Informationsfluten kanalisieren
    Marcus Lindemann, Google für Fortgeschrittene
    Marcus Lindemann, Einmaleins des investigativen Verbraucherjournalismus
    Sebastian Moericke, CAR & Statistik – Wie finde ich statistische Daten für mein Thema?
    Jürgen Sell und Matthias Spielkamp, Digitaler Informantenschutz – Was Journalisten über den Umgang mit sensiblen Daten wissen sollten (PDF, 1,1 MB) außerdem (schon länger online) hier:

    Systematische Bewertung von Online Quellen

    Handout zur Personensuche

  • Überwachung – Seite 2 – Journalismus & Recherche

    In welcher Zeit leben wir! In welchem Land leben wir!
    Bundesinnenminister Hans-Peter Friedrich (CSU) [hat] die Deutschen aufgerufen, selbst mehr für den Schutz ihrer Daten zu tun. Verschlüsselungstechnik oder Virenschutz müssten mehr Aufmerksamkeit erhalten, sagte Friedrich nach seiner Anhörung vor dem Parlamentarischen Kontrollgremium (PKG) des Bundestages zu der Spähaffäre.“ (so Zeit Online). Wüsste man nicht um die näheren Umstände, man würde sich ja glücklich schätzen! Aus gegebenem, quasi ministeriellen Anlass also, als kleine Handreichung:

    Kurze Anleitung zu überwachungsfeindlichem Verhalten
    Wie viel Sie überwacht werden, entscheiden Sie mit. Jeder bestimmt durch sein eigenes Verhalten, wie weit die Überwachung durch Geheimdienste und Firmen geht und wie schwer es die Überwacher haben. Man kann viel tun und sollte es tun

    von Albrecht Ude (PDF-Datei, 7 S., 92 KB)

  • Wikipedia Suchmaschine – Journalismus & Recherche

    Wenn man eine Website (Top- oder Second-Level Domain, Subdomain) durchsuchen will, braucht man den Befehl, der bei Google „site:“ heisst (bei anderen Search Engines tw. anders). Die Suchmaschine liefert dann nur Treffer aus ihrer Datenbank, die aus dem entsprechenden Domainraum stammen.
    Für solche Suchen sollte man ruhig verschiedene Suchmaschinen parallel nutzen, denn eine Website kann mehr Inhalte umfassen, als eine einzelne Search Engine findet. Eine Ausnahme ist die Wikipedia – wer die durchsuchen will, sollte die wikipedia-eigene Suchmaschine nutzen:

    Die vortreffliche Qualität der On-Site Suche der Wikipedia, die ich gerade auf Eine Woche Ohne beschrieben habe.

  • Google – die Macht einer Suchmaschine – Journalismus & Recherche

    Ein Film von Julia Salden (Redaktion ZAPP), ausgestrahlt vom NDR am 07.06.2006: „Google – die Macht einer Suchmaschine : Der erste deutsche Film über den amerikanischen Internet-Giganten“.

    Das Sendemanuskript (PDF) und auch das Video können vom Server des NDR geladen werden.

    [AUde]

  • Henk van Ess – Forensic Searching – Journalismus & Recherche

    Henk demonstriert einige Methoden, mit deren Hilfe man einschätzen kann, wie zuverlässig die Informationen auf einer Website sind. Schönes Beispiel: Welchen biografischen Informationen über Martin Luther King kann man trauen? Er zeigt erstmal nur die Web-Adressen (URLs) der Seiten:

    • martinlutherking.org
    • martinlutherking.tk
    • 213.198.79.178/members9/~melski/martinlutherking.htm
    • www.psd267.wednet.edu/~kfranz/SocialStudies/MLKJr/martinlutherking.htm

    Die 213.198.79.178/etc.-Adresse ist unvollständig; wird nachgereicht, sobald Henk seine Präsentation schickt.
    Erstes Beispiel: die .org-Domain wird erstellt von Stromfront, einer rechtsradikalen US-Organisation, denn jeder kann sich eine .org-Domain anmelden, die Registrierung ist „offen“. Die .tk-Seite zeigt er gar nicht, sondern charakterisiert die .tk-Registrierungsagentur als „die Kokaindealer des Webs“. „.tk“ steht für Tokelau; praktisch jeder Antragsteller bekommt dort eine Domain, es ist also höchste Vorsicht geboten. Bei der dritten URL schließlich deuten die Bestandteile „members9“ und die Tilde (~) darauf hin, dass es sich um eine private Homepage handelt. Bei der letzten schließlich zeigt die .edu-Domainendung, dass es sich um die Seite einer Bildungsinstitution handelt, denn .edu-Adressen bekommen nur Universitäten und Bildungseinrichtungen (zuerst nur die der USA und Kanadas, inzwischen auch in anderen Ländern – aber der Nachweis muss vorliegen, dass es sich um eine Bildungseinrichtung handelt). Mir fehlt der Hinweis, dass es sich auch bei der Seite mit .edu-Adresse um die Homepage eines Studenten handeln kann. Ob die dann glaubwürdiger ist als andere, muss nach anderen Kriterien beurteilt werden.

    Jedenfalls sind .org-, .com- und .net-Domains niemals „geschützt“ gewesen, d.h. jeder konnte und kann sie sich registrieren lassen. Meine Anmerkung dazu: Auch die Abfragen der Domain-Inhaber führen häufig ins Leere, u.a. deshalb, weil es inzwischen so genannte Proxy(Stellvertreter-)-Dienste gibt, die nichts anderes tun, als für andere als Strohmann Domains anmelden und es damit ohne Unterstützung staatlicher Ermittler nahezu unmöglich machen, Domain-Inhaber zu identifizieren. Henk empfiehlt den „Social Engineering“-Ansatz: womöglich kommt man zum Erfolg, wenn man den technischen Admin anruft und nachfragt, wer die Domain registriert hat. Ist aber bei denjenigen, die es darauf anlegen, ihre Spuren zu verwischen, sehr unwahrscheinlich, damit zum Erfolg zu kommen. Eine gute Seite zur Abfrage von Registrierungsinformationen ist samspade.org.

    Bei einer .de-Domain ist es aber noch in den meisten Fällen möglich, den Domaininhaber heraus zu bekommen, weil die Bestimmungen vorsehen, dass bei Denic (der deutschen Registrierungsagentur) verlässliche Daten hinterlegt werden, die über eine Domainabfrage bei Denic auch angezeigt werden. Allerdings ist es so, dass die Denic bzw. die privaten Anbieter, die Domains für Privatpersonen dort registrieren, bei Anmeldungen nicht verlangen, dass z.B. ein Personalausweis vorgelegt wird.
    Schöner Hinweis auf Alexa Search, wo unter „Traffic Ranking“ für eine bestimmte Seite auch angezeigt wird, wer welche Websites registriert hat (etwa der Spiegel-Verlag mit spiegel.de, manager-magazin.de, wahreliebe.de und vielen anderen). Selbstverständlich können Anbieter auch diese Möglichkeit unterlaufen, wenn sie sich mit unterschiedlichen Angaben registrieren lassen. Die Chance, dennoch interessante Informationen zu bekommen, sollte man sich aber nicht entgehen lassen, denn viele Anbieter kennen die vielfältigen Möglichkeiten zur Recherche eben gar nicht. Im nächsten Teil zeigte Henk, wie man herausfinden kann, was die Anbieter von bestimmten Informationen gerne verbergen würden. Sein spektakulärster Fall: der Calipari-Report, in dem untersucht wird, wie es dazu kommen konnte, dass italienischen Geheimdienstmitarbeiter im Irak von US-Soldaten erschossen wurde. Das Dokument wurde als PDF-Fassung mit geschwärzten Stellen veröffentlicht. Kopierte man den Text jedoch in ein Word-Dokument, verschwanden die Schwärzungen. Zum Vorschein kamen u.a. Angaben dazu, wie viele US-Soldaten (?) bis dahin im Irak ums Leben gekommen waren, Informationen also, die zu dem Zeitpunkt noch als vertraulich behandelt wurden. Auch der Hinweis auf die Meta-Daten in Dateien (etwa in Word-Dokumenten) durfte nicht fehlen. Wie findet man zum Beispiel heraus, wer der Autor eines Dokuments ist? Indem man das Menü „Datei, Eigenschaften“ aufruft. Hat der Autor vergessen, die Informationen zu löschen, kann man dort neben dem Namen bisweilen auch die E-Mail-Adresse herausfinden. Schöne Anmerkung Henks: Sollte jemandem jemals dieses Informationen helfen, um einem Autor auf die Spur zu kommen, und der fragt, woher man die Informationen habe: nicht verraten! Denn je weniger davon wissen, desto geringer wird die Wahrscheinlichkeit, auf diese Art an verwertbare Information zu kommen. Außerdem empfiehlt Henk aus derartigen Gründen Kollegen, sich möglichst immer (auch) die elektronische Ausgaben eines Dokuments geben zu lassen. Zusätzlich sollte man immer kontrollieren, ob ein Dokument in verschiedenen Versionen abgespeichert ist (Word bettet üblicherweise verschiedene Bearbeitungsstufen in ein Dokument ein, die nachträglich sichtbar gemacht werden können, wenn der Autor vergessen hat, sie zu löschen). Henks Beispiel für einen Geschichte, die daraus entstand, war die einer Stellungnahme (die Details habe ich leider nicht mitbekommen), in deren veröffentlichtem Text man lesen konnte, dass der Premierminister eine bestimmte Haltung unterstützt. In einer früheren Version des Dokuments ist zu lesen, dass das Kabinett sie unterstützt. Anhand der Tatsache, dass diese Passage wieder gestrichen wurde, konnte man zumindest schließen, dass das Kabinett die Unterstützung verweigert hatte. Ich komme im Moment nicht darauf, welche Aufsehen erregende Geschichte in Deutschland darauf beruhte, dass der Autor eines Dokuments vergessen hatte, die Versionen zu bereinigen. Vielleicht kann das einer der Kollegen ergänzen – oder unsere Leser, indem es jemand als Kommentar einfügt. Bitte recherchieren! (Ich kann grad’ nicht, sitze offline im Zug …)

    Seine Buchempfehlung zum Thema: „Internet Forensics“, erschienen bei O’Reilly.

    Henks Präsentation als PDF (1,1 Mb, Englisch).

  • März 2008 – Seite 3 – Journalismus & Recherche

    Vor zwei Wochen (vor dem Urteil des BVerfG zur Online-Durchsuchung) habe ich ein Interview gegeben, dass auf freien infos – infos rund um den freien journalismus, einem vom DJV betriebenen Weblog, erschien. Dazu ein Nachtrag.

  • Fehlerhafte IP-Auslösung bei Flagfox – Journalismus & Recherche

    Angeregt durch einen Vortrag auf dem jüngst vergangenen Jahrestreffen des netzwerk recherche überlegte ich, das Firefox-Addon Flagfox zu installieren. Die Beschreibung im Addons-Verzeichnis lautet:

    Zeigt mit einer Landesflagge den Standort des Servers der geöffneten Website an und bietet eine Vielzahl an Werkzeugen, wie Website-Sicherheitsprüfungen, Whois, Übersetzung, ähnliche Seiten, Validierung, URL-Kürzung und mehr…

    Aber wie üblich habe ich erst mal geschaut, ob es negative Einschätzungen dazu gibt. Und siehe da: Bei Startpage nach +flagfox +mist geschaut, findet sich ein Eintrag aus Will’s Blog vom August 2009 mit einem aussagekräftigen Screencast (09:47 min).
    Flagfox liefert tw. falsche Daten, weil Whois-Daten ausgewertet werden. Die taugen zur Lokalisierung der Domaininhaber, aber nicht der Serverstandorte. Empfehenswerter ist World IP.