Archive for the ‘Google-Basics’ Category

Digitale Zeitungsarchive

Sonntag, November 1st, 2009

Die FAZ hat eine Linkliste zu digitalen Zeitungsarchiven veröffentlicht, denn:

Alte Zeitungen sind das beste Archiv des Alltags, das wir haben. In vielen Blättern, die zum Teil mehr als 200 Jahre alt sind, kann man online stöbern. Unsere Linksammlung zeigt die besten Adressen im Netz.

Eine dankenswerte Aufgabe. Ergänzen möchte ich zwei Informationen, weil ich oft genug in Seminaren erfahre, dass sie nicht bekannt sind: Das Archiv des Spiegels ist inzwischen im Volltext bis zurück zur ersten Ausgabe durchsuchbar - kostenlos. Und wenn man mal auf einen Artikel in der FAZ stößt, der angeblich nur im kostenpflichtigen Archiv vorhanden ist (man suche z.B. nach „Reto Hilty“), sollte man erstmal mit Googles Site-Funktion suchen, bevor man’s glaubt (geht auch bei Yahoo über die erweiterte Suche oder bei Bing mit der Site-Funktion).

Googles OR-Operator kaputt?

Mittwoch, Januar 21st, 2009

Habe ich was verpasst? Warum funktioniert Googles boolscher Operator OR nicht mehr, oder zumindest im Moment nicht?

Wenn ich nach „albrecht ude“ suche, bekomme ich 1.730 Treffer, suche ich nach „albrecht ude“ OR „ude albrecht“, bekomme ich 1.820 Treffer - so weit, so gut.

Suche ich aber nach iRights.info, gibt’s 31.700 Treffer, bei irights.info OR irights.de aber nur 30.200. Das hat nichts mit der Unschärfe bei hohen Trefferzahlen zu tun, man kann das auch reproduzieren mit z.B.  „hermann spielkamp“ (170 Treffer) und „hermann spielkamp“OR „spielkamp hermann“ (107 Treffer).

Die URLs sehen auch nicht gerade so aus, als würden die Suchanfrage „richtig übersetzt“: http://www.google.de/search?hl=de&q=“hermann+spielkamp“OR+“spielkamp+hermann“. Was machen die Plus-Zeichen an den Stellen, an denen sie nichts zu suchen haben?

Es ändert sich auch nichts, wenn man es über die erweiterte Suche probiert, oder auch advanced search in der .com-Version, wo das Menue ja überarbeitet worden ist, um genau diese ODER-Funktion etwas einfacher verständlich zu machen.

Sehr seltsam. Hat jemand etwas darüber gehört, dass/warum da geschraubt wird?

whitehouse.gov/robots.txt - change has come

Mittwoch, Januar 21st, 2009

Noch ist Obama keine 24 Stunden im Amt, schon wird an allen Ecken und Enden der USA etwas geändert. Mit dem Hochladen der neuen Inhalte auf www.whitehouse.gov ist auch die längste mir bekannte robots.txt Datei Geschichte, sie hatte gefühlte 89 Bildschirmseiten und ich habe sie nie abgespeichert, das google cache ist schon leer und archive.org hat Server-Problme :-( Sobald ich was habe, trage ich das hier nach.
Im MSN live Cache bin ich nun fündig geworden, deren robot war am 9.1. das letzte mal auf der Site:
http://cc.msnscache.com/cache.aspx?q=%22www+whitehouse+gov+robots+txt%22&d=75320168942549&mkt=de-DE&setlang=de-DE&w=4be343d6,5a788843

Warum die alte robots.txt überhaupt so lang war, konnte nie jemand erklären - bei Stichproben waren alle Inhalte aus den für Suchmaschinen gesperrten Seiten auch über google auffindbar.

Namen Googlen – nichts leichter als das?!?

Samstag, Mai 31st, 2008

Googlen können wir alle und Namen auf diese Weise zu „recherchieren“ ist doch kinderleicht.

Weit gefehlt, vor allem wenn es darum gehen soll, sehr umfangreich oder – soweit möglich – vollständig zu suchen.

Die drei häufigsten Fehler:

  1. Namen werden falsch geschrieben, auch in ansonsten seriösen Quellen.
  2. Nicht nur in Ergebnislisten von Sportvereinen oder Abiturprüfungen wird der Vorname nach dem Nachnamen aufgeführt, daher schließt die String-Suche (in Anführungszeichen) mit „Vorname Nachname“ solche Ergebnisse aus.
  3. Menschen mit einem zweiten Vornamen sind unberechenbar, ich verweise nur auf Henryk Mittelinitial Broder. Mal schreiben sie sich mit mal ohne Mittelinitial oder sie schreiben gar ihren Namen aus und schwups, wieder schließt die Stringsuche relevante Ergebnisse aus.

Immerhin kann man mit „Vorname * Nachname“ die Mittelinitial-Menschen finden, egal ob der Name ausgeschrieben, abgekürzt oder falsch geschrieben ist … Achtung: Treffer die den Namen ohne Mittelinitiale enthalten, werden dann nicht gefunden.

Besser also folgendes in den Suchmaschinen-Schlitz schicken:

"Vorname Nachname" OR "Nachname Vorname" OR "Vorname * Nachname"

(„Nachname Vorname *“ entfällt, da es die gleichen Ergebnisse liefert wie „Nachname Vorname“).

Was lehrt uns das? Bei seltenen Namen kann getrost auf die Anführungszeichen verzichtet werden, bei häufigeren Namen muss man sorgfältig mögliche Variationen abarbeiten – wenn es denn darum geht, möglichst viel zu erschliessen.

Dazu müsste dann die Suchzeile von oben in möglicherweise mehreren Durchgängen um denkbare Schreibfehler variiert werden. Etwa so:

"Vorname Nachnahme" OR "Nachnahme Vorname" OR "Vorname * Nachnahme"

Hier bei Journalismus & Recherche das ausführliche Handout zur Personensuche anhand eines Beispiels .

Wann und warum es sich lohnt, Yahoo zu nutzen …

Donnerstag, September 20th, 2007

Ja, ich bleibe dabei – die meisten Journalisten sollten erstmal eine Suchmaschine verstehen und bedienen lernen bevor sie versuchen, durch die Nutzung mehrerer Suchmaschinen zu (besseren) Ergebnissen zu kommen.

Bislang habe ich die Nutzung verschiedener Suchmaschinen immer dann empfohlen, wenn man „alles über“-Rechercheren macht, sprich wenige Treffer, ein überschaubares Thema und ein großes Interesse an den Ergebnissen.

Gerade bei Treffern abseits der wichtigsten Seiten, die wohl jede Suchmaschine indiziert, lohnt sich das, denn die Überschneidungen zwischen den Suchmaschinen, die überhaupt eigene Indizes haben (Yahoo, Google, MSN, Seekport, Ask.com ehemals Teoma), sind minimal. Diese schöne Begründung verdanke ich Dirk Lewandowsky, dem ich in einem Seminar zuhören durfte (Präsentation hier).

Erfreulich auch seine Erfahrung, dass yahoo manches besser macht, als google. Ich gebe zu, die nachfolgenden Punkte sind selten relevant, aber über die Ergebnisse bei google habe ich mich dann doch zu oft geärgert – jetzt weiß ich, yahoo kann das besser!

ODER-Suche

Die Oder-Suche funktioniert bei Google nicht ordentlich, wobei am ärgerlichsten ist, dass dies nur schwer und selten auf Anhieb zu erkennen ist.

Synonyme wider Willen

Google findet bei der Suche nach „Stefan Mayer“ auch Stephan Meier und andere vermeintliche Synonyme. Das heißt, trotz Anführungszeichen ist keine Phrasensuche möglich.

Das schlimmste an diesen Fehler ist, dass man die Funktionalität der Operatoren bei google bezweifeln muss – eine Verunsicherung, die ganz schön am Lack des Marktführers kratzt.

Noch ein Tipp: Für Firefox gibt es die Erweiterung Customize Google, damit lassen sich identische Suchanfragen nacheinander bei verschiedenen Suchmaschinen stellen. Die Einstellungen erlauben es leider nicht, dies auf die Maschinen mit eigener Datenbasis (s.o.) zu beschränken.

Google Basics: Alles was man (mindestens) wissen muss

Freitag, Juni 15th, 2007

Hinweis: Hier fehlen noch etliche Verlinkungen. Sie werden im Laufe des Tages ergänzt. Ich bitte um Verständnis. Gute Nacht ;-)

Screenshot Google-Suchbox im Firefox-WebbrowserGoogle hat laut „heise online“-Newsticker in Deutschland im September 2006 die 90-Prozent-Hürde beim Marktanteil in Deutschland genommen. Das heißt, mehr als 90 Prozent der Web-Suchanfragen in Deutschland werden bei Google gestellt – und von Google beantwortet. Wie es dazu kam? Google hat sich mit seiner Pagerank-Suchtechnologie und einer einfachen Bedienung die Marktführerschaft erobert und gilt seither als Suchmaschine Nr. 1 im Web. In vielen Browsern ist Google seit Jahren als Standardsuchmaschine voreingestellt.

Wir können zwar damit unzufrieden sein, dass Google so marktbeherrschend ist. Fakt ist allerdings: Google ist neben oder vielleicht sogar vor Yahoo und MSN nach wie vor die beste Allround-Suchmaschine. Aus Recherche-Sicht ist es sicher klug, viele Suchmaschinen, vor allem auch Spezialsuchmaschinen, zu kennen. Aber wenigstens den Marktführer Google sollte man nicht nur kennen, sondern auch gut beherrschen. Daher hier die Basics zum Platzhirschen aus Mountain View (Kalifornien).
(weiterlesen…)