So lassen sich die meisten 404-Fehler umgehen – Journalismus & Recherche

Verfasst von

Mir passiert es jede Woche – eine Seite (page) auf die ich zugreifen möchte, zeigt mir die Fehlermeldung „Dieser Inhalt ist nicht mehr vorhanden.“ (404), dass ich dann den Inhalt nicht doch nicht noch aufrufen kann, ist äußerst selten und hat seine Gründe (s.u.)

Seit über 25 Jahren erzähle ich in meinem Seminaren schon, wie man dennoch an die Inhalte kommt – egal ob ein verwaister Link oder eine Suchmaschine auf die Seite mit der Fehlermeldung geführt hat. Und dennoch führt das in allen Redaktionen immer noch zu Erstaunen, wenn Volontär oder Praktikant das hinkriegen. ich bitte dann immer, darauf hinzuweisen, dass sie das an der Journalistenschule, der Volontärsausbildung oder einem Seminar gelernt haben. Der Leiter einer Journalistenschule hatte sogar mal die Hoffnung, dass die Redakteure dann eines Tages merken, dass ihnen Handwerkszeug fehlt und sie vielleicht mal ein Seminar besuchen sollten.

Allein, das passiert nicht, seit 20 Jahren nicht. Redakteure rufen lieber den Informatik-Professor der lokalen Hochschule an, ob man da noch etwas machen könne, bei so einem 404-Fehler oder ob der Inhalt verloren sei. Das ist quasi schon immer so – seit ich im Internetrecherche unterrichte – heuer seit immerhin 25 Jahren!

Und wie geht das nun?

Wenn man über eine Google-Suche auf die 404-page kam, einfach zurück in die Ergebnisseite (SERP, search-engine-result-page) und dort auf die drei Punkte neben der URL klicken, ein Fenster öffnet sich und dort findet man unten rechts den Link „Im Cache“ (cached). Der führt zu der letzten Kopie, die Google von dieser Seite gemacht und auf googleusercontent.com abgelegt hat.
Wenn das mal nicht funktioniert oder der verwaiste Link aus einer anderen Quelle stammt, hilft sehr häufig, den gesamten Link bei archive.org einzugeben.
Wenn das nicht hilft ist für mich archive.today die nächste Station.
Auch andere Suchmaschinen haben einen eigenen Cache, Bing zum Beispiel. Da die Crawler der Suchmaschinen unabhängig voneinander arbeiten (wenn es denn eigenständige Suchmaschinen sind und nicht solche, die auf den Index anderer zugreifen), wäre es ein enormer Zufall, wenn eine Seite nahezu zum gleichen Zeitpunkt indexiert worden wäre.
Danach wird es mühselig: Hat vielleicht ein anderer Nutzer einen Screenshot gemacht? Kann ich den finden?

Warum funktioniert das mit dem Cache nicht bei allen Domains? Weil einige Domains das schlichtweg nicht wollen und Google zwar erlauben, die eigenen Seiten in den Index aufzunehmen, nicht aber, diesen auch den Nutzern anzuzeigen. Das kann z.B. sinnvoll sein, wenn juristisch relevante Fehler korrigiert wurden und die korrigierte falsche Information nicht mehr aufrufbar sein soll.

Kleiner Disclaimer: Diese Seite wird immer mal wieder zu einem 404-Fehler führen, damit meine Seminarteilnehmer etwas zum Ausprobieren haben. Aber keine Sorge, sie ist dann sicher noch in Suchmaschinen-Caches und bald hoffentlich auch im Internet-Archiv.

So lassen sich die meisten 404-Fehler umgehen – Journalismus & Recherche

Weitere Beiträge

Hallo Welt!

Computer & Recherche auf dem nr-Jahrestreffen 2009 – Journalismus & Recherche

Buch „The Net for Journalists“ – Journalismus & Recherche

On-Site-Suche – Journalismus & Recherche