Vom Thumbnail zum Image zum Namen - Personensuche mit Bildern

November 1st, 2011 von aude

Vor zwei Wochen hat jemand mein Xing-Profil aufgerufen. Da war ich gerade auf der GIJC in Kiew, hatte an dem Tag einen Workshop zur Personenrecherche und war sehr dankbar für das schöne Beispiel, wie Personenrecherche mittlerweile klappen kann.
Read the rest of this entry »

Google Bildersuche ohne Suchbegriffe

October 9th, 2011 von Marcus Lindemann

Google hat -wohl Ende September schon- in den Suchschlitz der Bildersuche ein kleines Kamerasymbol eingebaut - wenn man darauf klickt, kann man Bilder anhand von Bildern anstatt von Begriffen suchen - entweder über die URL des Bildes oder aber das Hochladen eines Bildes.

Das klingt gut und ist ambitioniert, aber wer schon mal mit Picasa Bilder sortiert hat, weiß, dass das funktionieren kann. Diese Suchmöglichkeit gab es bisher so nicht - auch nicht bei anderen Anbietern. Am nächsten kam wohl tineye.com, aber Tests dort waren stets unbefriedigend.

Ohne umfangreiche Tests gemacht zu haben, hier ein paar erste Eindrücke:

- Google ist Tineye deutlich überlegen - einfach weil die Datenbank dahinter größer ist.

- Sehr gut funktioniert die neue Bildersuche bei Bildern, die in nahezu derselben Größe und im selben Ausschnitt gesucht werden - also typischerweise Profilbilder aus Twitter 6 Co.

- Verwendet man aber ein größeres Bild, aus dem Google nur den Ausschnitt kennt, wird das nicht gefunden.

 

- Komplett nutzlos sind die vorgeschlagenen ähnlichen Bilder, da hier alle möglichen Ähnlichkeiten - insbesondere des Bildaufbaus und der Farben - gefunden werden, aber keine Ähnlichkeiten. Ein Bild eines Turms findet zwar weitere Türme aber nicht weitere Bilder desselben Turms.

- Eine Suche ähnlicher Gesichter funktioniert nicht - soll ja angeblich bei Google auch nie kommen. Aber Picasa macht das ja und kann das ja schon. Für eine Recherche habe ich das mit Bilder aus dem Netz getestet und diese nach dem Runterladen mit Picasa sortiert. Das Ergebnis ist nicht perfekt, aber sehr gut.

- Die neue Suche hilft künftig sicher nicht nur beim Auffinden von Urheberrechtsverletzungen, sondern auch bei journalistischen Recherchen - etwa um weitere Netzwerke oder Seiten zu finden, auf denen eine Person mit dem gleichen Foto aktiv ist.

Hilfe erbeten: Ein Suchmaschinen-Problem

July 16th, 2011 von aude

Wie viel finden Suchmaschinen?

Dass keine Suchmaschine „das ganze“ Internet kennt, ist trivial. Man sucht immer in einem Index, der nur einen Teil des (für SEs auffindbaren) Netzes abbildet. Aber wie viel finden Suchmaschinen?

Wikipedia ist eine ziemlich gute Site, was Suchmaschinenoptimierung angeht (s. z.B. Report on dangers and opportunities posed by large search engines, particularly Google, September 30, 2007, vor allem „Section 1: Data Knowledge in the Google Galaxy- and Empirical Evidence of the Google-Wikipedia Connection“)
Ich habe einfach mal verglichen, wie viel „kohle“ Google in der deutschen Wikipedia findet:
http://www.google.de/search?sclient=psy&hl=de&site=&source=hp&q=kohle+site%3Ade.wikipedia.org&btnG=Suche

Ungefähr 7.870 Ergebnisse

Und wieviel kennt Wikipedia selbst?
http://de.wikipedia.org/w/index.php?title=Spezial%3ASuche&redirs=0&search=kohle&fulltext=Search&ns0=1
Ergebnisse 1-20 von 15.340 für kohle
Also deutlich mehr.

Ich wollte schon „Triumpf“ schreien, habe aber vorher noch Yahoo und Bing geprüft, die den Site-Operator auch haben:
Yahoo: 41.900 Ergebnisse für kohle site:de.wikipedia.org
Bing: 1-10 von 16.100 Ergebnisse für kohle site:de.wikipedia.org

Und da bin ich jetzt ein bischen blank, wie ich das einschätzen soll.
Für hilfreiche Erläuterungen bin ich sehr dankbar.

Die neue Parteispender-Datenbank

June 19th, 2011 von Sebastian Heiser

Welche Personen und Unternehmen spenden eigentlich an die Parteien? Bisher war es recht kompliziert, das herauszufinden: Einmal, weil ohnehin nur alle Spender ab 10.000 Euro veröffentlicht werden. Und dann, weil auch die Informationen über diese Spender schwer zugänglich waren. Einmal im Jahr veröffentlichte der Bundestag auf seiner Webseite eine große PDF-Datei mit den eingescannten Rechenschaftsberichten der Parteien. Man konnte die Dateien nicht automatisch durchsuchen. Wer wissen wollte, ob eine bestimmte Person oder ein bestimmtes Unternehmen zu den Parteispendern gehört, musste sich durch jeden einzelnen Jahrgang und durch mehrere tausend Seiten quälen.

Die taz hat nun die Berichte der Parteien über ihre Spenden der Jahre 1994 bis 2009 aufbereitet und stellt eine Online-Suche zur Verfügung. Die Datenbank wird auch zukünftig aktualisiert, sobald die neuen Berichte erscheinen. Für das Bundestagswahljahr 2009 haben wir die Spender zudem in einer interaktiven Karte dargestellt. So kann jeder sehen, wo in der Nachbarschaft der nächste Parteispender wohnt. Die taz bietet die Daten auch in einem offenen Format zum Download und zur freien Weiterverwendung an.

Auch die Leser werden einbezogen: Die taz ruft sie dazu auf, die Daten zu durchsuchen und Hinweise für weitere Recherchen zu geben. Gerade im Lokalen erwarten wir viele interessante Rechercheansätze. So wurde die Gertrudis-Klinik in Leun-Biskirchen etwa zum 1. Januar 2011 in den hessischen Landeskrankenhausplan aufgenommen. Statt 18 Betten für gesetzlich Versicherte hat das Krankenhaus seitdem bis zu 140 Kassenplätze. Verantwortlich für die Entscheidung war das CDU-geführte hessische Sozialministerium. Im Jahr 2009 hatte die Gertrudis-Klinik 15.000 Euro an die CDU gespendet. Unsere Leser können weitere sachdienliche Hinweise an die Mailadresse open@taz.de mailen.

Die taz beauftragte opendatacity.de mit der Aufbereitung der PDFs. Die Mitarbeiter programmierten auch die Suchmasken für die maschinenlesbaren Daten. Rund sechs Personen waren in der taz insgesamt mit dem Projekt befasst, etwa einen Monat lang mit welchelnder Intensität. Als Kosten entstanden einige tausend Euro. Wenn man auch die Arbeitszeit der Festangestellten mitberücksichtigt, lagen die Kosten bei grob geschätzten 10.000 Euro. Die taz hat im vergangenen Monat die Kampagne „taz-zahl-ich“ gestartet und ruft ihre Leser dazu auf, freiwillig für die Inhalte auf taz.de zu zahlen. Wir hoffen, so einen Teil der Kosten wieder reinzuholen. Zum Start der Kampagne im April zahlten die Leser mehr als 10.000 Euro, im Mai waren es rund 4.700 Euro.

Sebastian Heiser arbeitet als Redakteur bei der taz

Wie hoch sind die Mauern von Bin Ladens Versteck?

May 10th, 2011 von Marcus Lindemann

Susanne Lob hat mich gestern darauf aufmerksam gemacht, dass in deutschen Medien die Angaben zur Höhe der Mauer rund um Bin Ladens Versteck variieren - während FTD und Mopo an einer Stelle 5,40 Meter und an einer anderen 3,60 Meter angeben, nennen FAZ und SZ 5,50 Meter bzw 3,70 Meter, also jeweils 10 Zentimeter mehr.

Die Ursache ist relativ schnell zu finden. Als Quelle der Grafik wird die CIA angegeben. Mit dieser Google-Suche findet sich das Original recht schnell:

site:cia.gov abbottabad

https://www.cia.gov/news-information/cia-the-war-on-terrorism/usama-bin-ladin-operation/abbottabad-compound-graphics.html

Hier werden 12 und 18 feet angegeben. Offensichtlich haben sich es FTD und Mopo einfach gemacht und einfach mit 30 Zentimetern pro Fuß gerechnet, während FAZ und SZ genauer umgerechnet haben: Ein Fuß entspricht 0.3048 Metern. In der Summe kommen, aufgerundet, dann jeweils 10 Zentimeter mehr raus.

Die Ungenauigkeit durch das jeweilige Aufrunden ist allerdings fest genau so groß wie die Ungenauigkeit durch die ungenaue Umrechnung. Legt man die Originalangabe in Fuß zu Grunde kann man eine Genauigkeit von plus/minus einem Fuß ausgehen. Gemessen daran würde eine Angabe auf einen Zentimeter genau eine Scheingenauigkeit suggerieren.

Konferenz „Informare“ in Berlin

April 20th, 2011 von aude

Auf der diesjährigen Konferenz „Informare“ (Claim: Mehr WISSEN. Besser Entscheiden.) wird es neben der ‘klassischen’ Konferenz auch Workshops und eine „Lange Nacht der Suchmaschinen“ geben, ferner Ausstellungen und ein Barcamp. Themen der Konferenz sind Informationsbereitstellung, Informationsbeschaffung und Wissensvermittlung im digitalen Umfeld, und zwar aus technischer, organisatorischer, politischer und gesellschaftlicher Sicht.
Read the rest of this entry »

WikiLeaks & Co.: Chancen und Risiken - Guido Strack über Whistleblower

April 17th, 2011 von Matthias Spielkamp

Einen ausgezeichneten Vortrag hat Guido Strack vom Whistleblower-Netzwerk e.V. auf der re:publica gehalten und uns erlaubt, seine Folien (PDF, 1,5 MB) zu veröffentlichen. Besonders interessant sind meiner Einschätzung nach die Beschreibung der aktuellen Rechtslage, die Forderungen, was zu ändern ist und die Kritik am Gesetzesentwurf (S. 20-27). Aber auch die Definition des Whistleblowings: ich hatte den Begriff bisher immer so verstanden, dass Whistleblowing erst dann stattfindet, wenn der Hinweisgeber an die Öffentlichkeit geht. So sieht es auch die Wikipedia, aber Strack hat mich recht schnell überzeugt, dass das zu kurz greift (S. 3,11).

WikiLeaks & Co.: Chancen und Risiken - Guido Strack über Whistleblower

View more presentations from spieli.

Hier außerdem ein Interview von Peter Welchering und Tim Pritlove mit Guido Strack fürs Deutschlandradio auf dem 27c3, dem Jahreskongress des Chaos Computer Clubs.

CrossTalks 1.3 - Whistleblower from Gerd Pasch on Vimeo.

Außerdem ein Mitschnitt des Vortrags „Whistleblowing ist mehr als Wikileaks - Licht ins Dunkel bringen!“ von Strack und Johannes Ludwig vom Dok-Zentrum AnsTageslicht.de, ebenfalls vom 27c3.

Datenjournalismus ganz praktisch: Christina Elmer (dpa) auf der re:publica

April 17th, 2011 von Matthias Spielkamp

Christina Elmer arbeitet bei der Deutschen Presse-Agentur dpa als dienstleitende Redakteurin für aktuelle Infografiken sowie als Trainerin für Web-Recherche und Computer Assisted Reporting (CAR). Zuvor baute sie bei der dpa Deutschlands erste CAR-Redaktion “dpa-RegioData” mit auf. Auf der re:publica hat sie den Vortrag „Datenjournalismus ganz praktisch - Wie Journalisten Daten finden und sicher nutzen“ gehalten und uns erlaubt, Ihre Folien (PDF, 61 kb) zu veröffentlichen. Einige Beispiele für Karten, die die dpa aus Daten produziert hat, fehlen, weil sie zu groß für das PDF waren. Ich finde besonders Folie 16 interessant, in der Christina ihre Erfahrungen dazu, wie verschiedene Datenquellen mit Anfragen umgehen, in einer Matrix dargestellt hat, eingeteilt nach Qualität, Bandbreite, Zugang und Service.

SuMa Awards 2011 - Preise für die Zukunft des digitalen Wissens

April 16th, 2011 von aude

Zum vierten Mal werden die Preise für die Zukunft des digitalen Wissens, die SuMa Awards verleihen.
Read the rest of this entry »

Neuerscheinung „Die Datenfresser“

April 12th, 2011 von aude

Profile sind nützlich, um uns gezielt zum Kauf (…) zu verleiten, uns effizienter zu verwalten und dazu, zukünftiges Verhalten zu prognostizieren“ - deswegen ist es zu einer Industrie geworden, Daten zu sammeln, Profile zu erstellen und zu verkaufen. Die Namen der entsprechenden Firmen kennt jeder - und viele nutzen sie in der Verwechslung, dies geschehe umsonst (statt unentgeldlich).
Read the rest of this entry »