Archive for the ‘Suchmaschinen’ Category

Digitale Zeitungsarchive

Sonntag, November 1st, 2009

Die FAZ hat eine Linkliste zu digitalen Zeitungsarchiven veröffentlicht, denn:

Alte Zeitungen sind das beste Archiv des Alltags, das wir haben. In vielen Blättern, die zum Teil mehr als 200 Jahre alt sind, kann man online stöbern. Unsere Linksammlung zeigt die besten Adressen im Netz.

Eine dankenswerte Aufgabe. Ergänzen möchte ich zwei Informationen, weil ich oft genug in Seminaren erfahre, dass sie nicht bekannt sind: Das Archiv des Spiegels ist inzwischen im Volltext bis zurück zur ersten Ausgabe durchsuchbar - kostenlos. Und wenn man mal auf einen Artikel in der FAZ stößt, der angeblich nur im kostenpflichtigen Archiv vorhanden ist (man suche z.B. nach „Reto Hilty“), sollte man erstmal mit Googles Site-Funktion suchen, bevor man’s glaubt (geht auch bei Yahoo über die erweiterte Suche oder bei Bing mit der Site-Funktion).

Yahooglebing

Samstag, Juni 13th, 2009

Bing, Microsofts neue Suchmaschine, die Live ersetzt hat, genießt derzeit viel Aufmerksamkeit. Ob Bing Google ernsthaft Konkurrenz machen kann, wird die Zukunft zeigen. Wer mag, kann die Ergebnisse beider Suchmaschinen miteinander vergleichen:

Compare Search Engines Google and Bing
www.blackdog.ie/google-bing

Schon länger gibt es ein ähnliches Angebot, mit dem sich die Ergebnismengen von Yahoo und Google vergleichen lassen:

Yahoogle
www.yahooglesearch.com

Bei beiden Sites werden die Ergebnisse in zwei Frames nebeneinander angezeigt.

Paul Myers’ Tipps & Tricks

Sonntag, Juni 7th, 2009

Um ehrlich zu sein: die beiden Workshops von Paul Myers haben erfahrenen Internet-Rechercheuren nicht viel Neues gebracht. Dennoch konnte man hören, wie begeistert viele Teilnehmer waren, die sich nicht so intensiv mit dem Thema beschäftigt hatten. Insofern waren seine Präsentationen ein großer Erfolg.

Auf drei Beispiele möchte ich aufmerksam machen, die auch für mich sehr interessant waren:

  • Domaintools bietet eine WHOIS-Historie an. Das wusste ich nicht, kann es auch nicht oft nutzen, weil es sehr teuer ist - aber wenn man es wirklich mal braucht, ist es sehr gut, das zu kennen.
  • Man kann das Verzeichnis des Open Directory Projects mit der Way Back Machine durchsuchen. Das ist eigentlich selbstverstädnlich, nur muss man auch darauf kommen. Myers hat es am Beispiel der Website Saddam Husseins gezeigt, indem er erst die Seite zum Irak im aktuellen Verzeichnis herausgesucht, dann die Adresse in die Way Back Machine eingegeben hat (die ja noch immer keine Volltextsuche besitzt), um zum alten Verzeichnis zu kommen - und sich dann Saddams Website aufzurufen (die im Unterverzeichnis Government liegt). Clever.
  • Was für Nerds ist die Seite zu „Google dorks“. Dazu gibt’s keine Erklärung, weil es erstens zu lange dauern würde und ich zweitens den größten Teil selber nicht verstehe. :-( Aber ich arbeite dran.

Danny Sullivan testet Wolfram Alpha

Montag, Mai 4th, 2009

Danny „Suchmaschine“ Sullivan, Oberauskenner bei Suchmaschinen seit 15 Jahren, hat Wolfram Alpha getestet (soll im Mai online gehen):

Will it be as important as Google has become? Perhaps! A new search paradigm? Yes! Or at least a new way of gathering information. A Google-killer? Nope! But when the service launches, it should become an essential in anyone’s search tool kit.

Google immer kaputter

Montag, März 9th, 2009

Kürzlich hatte ich darauf hingewiesen, dass Googles OR-Operator im Eimer ist. Nun passieren weitere seltsame Dinge. Suche ich nach [spielkamp estland], bekomme ich 98 Treffer, suche ich nach [„matthias spielkamp“ estland], sind es 195.

Der Unterschied liegt darin, wie Google die Suchanfrage behandelt: gibt man einfach nur [„matthias spielkamp“ estland] ins Suchfeld ein, macht Google daraus

http://www.google.de/search?hl=de&q=%22matthias+spielkamp%22+estland&btnG=Suche&meta=

Streiche ich weg, was ich nicht verstehe, mache also

http://www.google.de/search?hl=de&q=%22matthias+spielkamp%22+estland

daraus, kommt das „richtige“ Ergebnis: 47 Treffer. Die Frage ist also zum einen, was &btnG=Suche&meta= zu bedeuten hat, zum anderen, warum Google verwirrende Suchergebnisse liefert, ohne das zu erklären (wie etwa mit

„Keine Ergebnisse für „Der Unterschied liegt darin, wie Google die Suchanfrage behandelt:“ gefunden.

Ergebnisse für Der Unterschied liegt darin, wie Google die Suchanfrage behandelt: (ohne Anführungszeichen):“

Ich kann keine Erklärung finden (auch nicht auf dieser genialen Seite) und bitte um Mithilfe bei der Aufklärung.

39e8c8f7eeec9f73f7627154fb50f128 - Schäuble defaced

Donnerstag, Februar 12th, 2009

Dass man mit sensiblen Daten anders umgehen muss, als mit einem beliebigen Christstollen, das sollte so langsam in dieser Republik bekannt sein - auch Telekom und Bahn sei dank. Gerade bei jenen, die „Sicherheit“ propagieren oder was sie dafür halten.

Vor diesem Hintergrund ist das Defacement der Website von Bundesinnenminister Wolfgang Schäuble mehr als nur eine Marginale. Die derzeit zwischenzeitlich unerreichbare Site („Page is being generated. If this message does not disappear within 30 seconds, please reload.“) verlinkte zwischenzeitlich auf den AK Vorratsdatenspeicherung.

(weiterlesen…)

Googles OR-Operator kaputt?

Mittwoch, Januar 21st, 2009

Habe ich was verpasst? Warum funktioniert Googles boolscher Operator OR nicht mehr, oder zumindest im Moment nicht?

Wenn ich nach „albrecht ude“ suche, bekomme ich 1.730 Treffer, suche ich nach „albrecht ude“ OR „ude albrecht“, bekomme ich 1.820 Treffer - so weit, so gut.

Suche ich aber nach iRights.info, gibt’s 31.700 Treffer, bei irights.info OR irights.de aber nur 30.200. Das hat nichts mit der Unschärfe bei hohen Trefferzahlen zu tun, man kann das auch reproduzieren mit z.B.  „hermann spielkamp“ (170 Treffer) und „hermann spielkamp“OR „spielkamp hermann“ (107 Treffer).

Die URLs sehen auch nicht gerade so aus, als würden die Suchanfrage „richtig übersetzt“: http://www.google.de/search?hl=de&q=“hermann+spielkamp“OR+“spielkamp+hermann“. Was machen die Plus-Zeichen an den Stellen, an denen sie nichts zu suchen haben?

Es ändert sich auch nichts, wenn man es über die erweiterte Suche probiert, oder auch advanced search in der .com-Version, wo das Menue ja überarbeitet worden ist, um genau diese ODER-Funktion etwas einfacher verständlich zu machen.

Sehr seltsam. Hat jemand etwas darüber gehört, dass/warum da geschraubt wird?

whitehouse.gov/robots.txt - change has come

Mittwoch, Januar 21st, 2009

Noch ist Obama keine 24 Stunden im Amt, schon wird an allen Ecken und Enden der USA etwas geändert. Mit dem Hochladen der neuen Inhalte auf www.whitehouse.gov ist auch die längste mir bekannte robots.txt Datei Geschichte, sie hatte gefühlte 89 Bildschirmseiten und ich habe sie nie abgespeichert, das google cache ist schon leer und archive.org hat Server-Problme :-( Sobald ich was habe, trage ich das hier nach.
Im MSN live Cache bin ich nun fündig geworden, deren robot war am 9.1. das letzte mal auf der Site:
http://cc.msnscache.com/cache.aspx?q=%22www+whitehouse+gov+robots+txt%22&d=75320168942549&mkt=de-DE&setlang=de-DE&w=4be343d6,5a788843

Warum die alte robots.txt überhaupt so lang war, konnte nie jemand erklären - bei Stichproben waren alle Inhalte aus den für Suchmaschinen gesperrten Seiten auch über google auffindbar.

Willkommen in der IT-98%-Bananenrepublik!

Donnerstag, Januar 15th, 2009

Wolfgang Sander-Beuermann weist im Newsletter des SuMa e.V. und in dessen Blog auf den aktuellen Stand bei der Nutzung der Suchmaschinen hin:
die grossen Drei (Google, Yahoo, MSN) haben mit ihren Suchmaschinen zusammen 98% Marktanteil. Dazu kommt als 4-te amerikanische Firma „Ask“ mit 0,5%. In den Nischen der restlichen 1,5% tummeln sich alle anderen noch nicht insolvent gewordenen oder die wenigen Newcomer.

Als Ursache dafür nennt er:
Es ist das Ergebnis beispielloser Ignoranz in der Wissenschafts- und Förderpolitik. Anstatt in realitätsnahe Zukunftstechnologien der IT zu investieren, die von den Nutzern gebraucht werden, wurden Unsummen an Fördergeldern für abgehobene Wolkenkuckucksvisionen sinnlos verbrannt. Denn das Ganze ist eine Frage des Geldes: es ist völlig naiv, zu glauben, dass technisch gute neue Ideen ausreichen würden, um neue Maßstäbe zu setzen. Nur dann, wenn solch gute neue Ideen mit ausreichend Startkapital versorgt werden, kann etwas Konkurrenzfähiges daraus werden. Solange jedoch die Wissenschafts- und Medienpolitik weiter im Tiefschlaf vor sich hin googelt, wird sich hieran nichts ändern.

Mehmet Toprak greift das Thema auf zwei Seiten in eWeekEurope auf: Google: Der stille Skandal (S. 2).

Sander-Beuermanns Stimme hat Gewicht: Er ist Mitentwickler der ersten deutschen Metasuchmaschine metager und Vorsitzender des SuMa e.V., „Gemeinnützigen Vereins zur Förderung der Suchmaschinen-Technologie und des freien Wissenszugangs“.

Es wird Zeit, dass - wie derzeit im Finanzsektor - die „Kräfte des freien Marktes“ Thema einer politischen Diskussion werden!

Europas digitale Bibliothek “Europeana” ist wieder online

Sonntag, Januar 4th, 2009

Robert Gehring über Europas digitale Bibliothek “Europeana”, die wieder online ist.