Online-Suchstrategien (1): Suchbegriffe finden

Der trivialste, mithin aber der schwierigste Schritt einer Online-Recherche, ist die Auswahl der Suchbegriffe. Damit steht und fällt die Effizienz der Recherche: Ist ein falscher Begriff dabei, der in den gesuchten Seiten nicht vorkommt, finde ich diese nicht; sind zu wenige oder zu wenig treffende Begriffe dabei, ertrinke ich in der Vielzahl von Treffern.

Eine universelle Lösung für dieses Problem habe ich nicht, aber eine Reihe von Regeln und Tipps:

1.) Möglichst viele Suchbegriffe verwenden, Anzahl der Treffer reduzieren.
Solange ich damit keine gewünschten Treffer ausschließe, kann und sollte ich weitere Suchbegriff hinzufügen. Beispiel: Auf der Suche nach dem Originaltext aus Shakespeares Hamlet kann ich dem Kernzitat [„to be or not to be“] problemlos alle weiteren Wörter aus dem Hamlet-Monolog hinzufügen, also: [„to be or not to be – that ist he question“]
Im Beispiel reduziert sich die Anzahl der Treffer von 1 777 000 auf 704 000.

2.) Was sind gute Suchbegriffe?
Eigennamen von Personen, Werken, Orten, Gebäuden, Organisationen sind sehr gute Suchbegriffe.
Solange es sich sinnvoll vermeiden lässt, sollten diese allerdings nicht als Phrase in Anführungszeichen gesucht werden! Die Anführungszeichen verhindern eine Suche nach anderen Schreibweisen, eingeschobenen weiteren Begriffen und anderen Abweichungen. (Am Beispiel einer Personensuche habe ich das hier ausführlich an einem Beispiel erklärt.)
Im Zweifelsfall kurz die Ergebnisse mit und ohne Anführungszeichen vergleichen!

3.) Wo finde ich gute Suchbegriffe?

a) in der Trefferumgebung
Beispiel: Nach der Eingabe von „to be or not to be“ kann ich, noch bevor ich eine der Trefferseiten aufrufe, weitere Suchbegriffe in der Ergebnisliste der Suchmaschine finden und mit ihnen meine Suchbegriffe ergänzen. In meinem Beispiel etwa die Begriffe [shakespeare hamlet] und die Ergänzung des Zitats (siehe 1.)

b) in der Wikipedia
Zum Einlesen ist sie immer geeignet – vor allem, wenn ich mit dem Thema nicht vertraut bin oder aber in einer Fremdsprache recherchiere. Mit dem Wörterbuch einen Suchbegriff treffend zu übersetzen, gelingt in der Regel nicht.
Beispiel: ich habe mal lange mit dem Suchbegriff [sects] für Sekten gesucht – die Übersetzung ist zwar treffend, aber aus Gründen der political correctness verwenden die Amerikaner statt [sects] lieber den neutraleren Begriff [religious groups]

4.) Zwei Ansätze: Nehme ich Suchbegriffe aus der Überschrift oder aus dem Inhalt?
Paul Myers (BBC) verwendet die nachfolgende Analogie, wenn er erklärt, wie man an die Auswahl der Suchbegriffe herangehen kann: Gute Sachbücher haben ein Inhaltsverzeichnis und einen Index: Während ich im Index alle relevanten Fundstellen für einen Begriff finde, taucht der Suchbegriff im Inhaltsverzeichnis vielleicht nur an einer Stelle auf, dafür führt er dort zu einem sehr relevanten Eintrag.
Wer in unserem Beispiel nach [berühmte Zitate Shakespeare] sucht, mag fündig werden, schließt aber alle Treffer aus, die für [berühmt] oder [Zitat] einen anderen Begriff verwenden, etwa auf Englisch.

Pauls Beispiel zeigt diesen Denkansatz noch besser. Wer nach einer Liste ermordeter Prominenter sucht, kann natürlich überlegen, was jemand, der eine solche Liste erstellt, in die Überschrift schreibt. Schon nach ersten Überlegungen und nur auf Deutsch kommt dabei eine komplexe aber unzureichende Suchanfrage zustande:

[(Liste OR Verzeichnis OR Übersicht) (ermordet OR getötet OR umgebracht OR erschossen) (Prominenter OR Politiker OR Stars OR Künstler)]

Eine solche Schnittmengensuche mit Hilfe des Operators OR kann sinnvoll sein (dazu in einer späteren Folge mehr), in diesem Fall ist sie es nicht, da es zu viele Synonyme gibt, und ich diese zudem in 3-4 Sprachen berücksichtigen sollte.

Zielführender ist hier die Frage: Welche Namen sollten auf der Liste auftauchen?

[John F. Kennedy] sollte dabei sein. Wer noch? Statt nun weitere ermordete amerikanischen Präsidenten hinzugefügt werden, sollte überlegt werden, welche Namen möglichst einen größeren Zugewinn für diese Suche bringen. Etwa:
[John Lennon] gut, ein Künstler, kein Politiker, aber auch USA
[Gandhi] gut, anderer Kontinent (und nebenbei gleich 3 Ermordungen: Mahatma Gandhi, sowie Nehrus Tochter Indira Gandhi und deren Sohn Rajiv Gandhi]
[Benazir Bhutto] gleicher Kontinent wie Gandhi, aber eine Ermordung, die noch nicht solange zurück liegt, damit werden inaktuelle Listen ausgeschlossen; (damit könnte man Gandhi wieder als Suchbegriff entfernen)
[Caesar] gute Ergänzung, wenn die Liste, denn auch die ältere Geschichte abdecken soll.

5.) Aus dem Beispiel unter 4. folgt der allgemeine Rat:
Stell Dir das Dokument vor, dass Du suchst! Was steht da drauf? Welche Begriffe werden für das, was ich suche, verwendet?
Tückisch sind viele Behördenseiten. So wird z.B. in Gesetzen und Verordnungen nicht von Prozentsätzen gesprochen, sondern von „von Hundert-Sätzen“ (v.H.) – der Suchbegriff [„v.H.“] ist daher auf der Suche z.B. nach Steuersätzen ein guter und erklärt, warum der Suchbegriff [Prozent OR %] oft weniger gut geeignet ist. Aber Achtung, das Bundesfinanzministerium verwendet in Pressemitteilungen durchaus Prozentangaben. Lösung: [„v.H.“ OR Prozent OR %].

6.) Und sonst noch: Über Suchbegriffe
a) Reihenfolge matters: bei 2 oder 3 Suchbegriffen macht die Reihenfolge einen Unterschied im Ranking der Treffer (nicht in der Anzahl. Beispiel zum Ausprobieren und Merken: [Hilton Paris] vs. [Paris Hilton]
b) Synonyme berücksichtigen und mit [OR] verbinden!
c) Substantive sind besser als Verben!
d) Solange ich kein [+] oder [„“] benutze findet Google auch andere Schreibeweisen und trunkiert meine Suchbegriffe!
z.B. [photographie] findet sowohl „Fotografie“ als auch „fotografisch“ oder „photographischen“

4 Responses to “Online-Suchstrategien (1): Suchbegriffe finden”

  1. A.Ude Says:

    Moin Marcus,

    ich habe zu Deiner sehr nützlichen Ausarbeitung nur ein winziges Detail beizutragen, eigentlich eine Frage.
    Unter Punkt 6a schreibst Du über „Reihenfolge matters: bei 2 oder 3 Suchbegriffen macht die Reihenfolge einen Unterschied im Ranking der Treffer (nicht in der Anzahl

    Anhand des von Dir genannten Musterbeispiels paris hilton versus hilton paris habe ich das gerade mal mit den Suchmaschinen durchgespielt. Und siehe da:

    Ask: 22.600.000 vs. 24.200.000,
    Bing: 47.300.000 vs. 44.900.000,
    Exalead: 10,745,610 vs. 13,310,457,
    Google: 61.600.000 vs. 35.200.000 Treffer.

    Einzig Yahoo nennt für beide Suchketten 212.000.000 Ergebnisse.

    Diese Merkwürdigkeit ist mir schon oft aufgefallen - klar: So hohe Ergebniszahlen sind wertlos unverläßlich, bestenfalls Schätzungen „Über den Daumen“. Aber sie markieren ja schlicht einen logischen Fehler: Unabhängig davon, wie das Ranking der Ergebnismenge ist, müsste ja zumindest die Trefferzahl gleich sein (a+b = b+a, simple Mengenlehre).
    Da scheint mir die Abweichung (am deutlichsten bei Google) doch sehr bemerkenswert.
    Aber eine Erklärung dafür habe ich nicht. Vorschläge, anyone?

  2. U. Lang Says:

    Google selbst nennt seine Ergebniszahl eine Schätzung
    (http://www.google.com/support/webmasters/bin/answer.py?hl=de&answer=70920) insofern also wenig verwunderlich, dass diese Zahlen variieren. Ich denke die Schätzung beruht auf mehreren Faktoren. Neben denen die im Suchalgrithmus selbst liegen dürfte auch der Googleindexserver eine Rolle spiele, der gerade zur Berechnung herangezogen wird. Diese Indizes sind nie 100% identisch, ihre Inhalte variieren und welcher dieser Indizes gerade für die Antwort einer Suchanfrage herangezogen wird, dürfte ebenfalls variieren.
    Generell würde ich vermuten, dass je weniger Treffer insgesamt im Index sind, um so die Schätzung exakter werden, da alle Indizes abgefragt werden und umgekehrt, je mehr Treffer umso ungenauer werden die Angaben…

  3. Marcus Lindemann Says:

    Ich weigere mich die Trefferzahlen zu interpretieren. Albrechts Beispiel zahlen würde ich - außer bei Google - als ähnlich groß/gleiche Größenordnung einstufen. Was google da macht, weiß ich nicht - Google hat es ja auch schon geschafft, bei Begriffen, die mit OR verknüpft sind, zunehmend weniger Treffer zu finden, obwohl das logischer Quatsch ist.
    @Albrecht Bei den Entwürfen liegt ein Post von mir, was Google bei der Suche alles besser machen könnte - wenn Du willst, schreib mit!
    @U.Lang: Der Suchalgorithmus sollte bei den gleichen Suchbegriffen die gleiche Anzahl liefern. Dass sich der Index derselben Suchmaschine zwischen zwei Abfragen verändert halte ich für unwahrscheinlich - dafür ist die Differenz bei Google auch viel zu groß.
    Je weniger Treffer, desto genauer: Das stimmt prinzipiell. Gott sei dank sind Google und Bing ja dazu übergegangen, auf volle Tausender/Hundertausender zu runden - das macht die Schätzung genauer. Bei dreistelligen Werten würde ich erfahrungsgemäss von weniger als 10% Abweichung bei der genannten Trefferanzahl ausgehen.
    Es gibt aber noch weitere Launen von Google: Es gibt mehr Treffer, wenn Google gerade Tweets und Google Local einbezieht… u.v.m.

  4. Marco M. Says:

    „Die Anführungszeichen verhindern eine Suche nach anderen Schreibweisen, eingeschobenen weiteren Begriffen und anderen Abweichungen.“

    Diesem Satz kann ich nicht zustimmen. Gestern suchte ich nach nach einem Namen und benutzte die Anführungszeichen (also Phrase), doch zum einen gab Google Treffer aus, die an einer Stelle der „gefundenen“ Seite den Vornamen ausgab, den Nachnamen an einer anderen. Oder es wurden andere Schreibweisen des Namens als Treffer angezeigt, manchmal sogar mehrere auf einer „gefundenden“ Seite.

    Irgend etwas scheint mit Googles Phrasensuche nicht mehr zu stimmen.