Kategorie: Allgemein

  • Journalismus & Recherche » Blog Archive » Besser online recherchieren: Kann man eigentlich Google-Ergebnisse nach Datum sortieren?

    Ja.

    Und das geht so:

    Google sortiert prinzipiell nach seinen eigenen Relevanz-Kriterien.
    (Nebenbei: Der genau Alogrythmus hierzu ist so geheim wie die Coca-Cola-Formel, aber die Hauptkritierien sind genauso bekannt wie die Zutaten von Coca-Cola.)

    Aber: Die Suchoption „Zeitraum festlegen“ erlaubt, die Treffer auf beliebige Zeiträume einzuschränken. Und jetzt kommt der Trick: Ein solcher Zeitraum kann auch lauten „vor 31.12.2014“ (oder bis zum heutigen Datum), also alle aktuell bekannten Treffer enthalten. Sobald diese Suchoption eingestellt wurde, lässt sich dann auch die Sortierung ändern (siehe screenshot) und man erhält die Treffer in absteigener Sortierung. Durch eine Veränderung des festgelegten Zeitraums kann man dann auch gezielt zu älteren Treffern springen, ohne sich durch die Trefferlisten klicken zu müssen.

    Das Ganze funktioniert (natürlich) nur so gut wie die Datumssortierung bei Google funktioniert – und die hat ihre Macken. Schwierigkeiten bereiten oftmals Inhalte auf Nachrichtenseiten, den neben älteren Inhalten auch akutelle Schlagzeilen enthalten (und umgekehrt).

  • Journalismus & Recherche » Blog Archive » Jan K. Köcher: Vorratsdatenspeicherung, Online-Durchsuchung & Co. – Recht und Gesetz sind nicht immer das Selbe

    Rechtsanwalt Dr. iur. Jan K. Köcher hat an der Westfälischen Wilhelms-Universität Münster Rechtswissenschaft studiert. Nach Abschluss seines juristischen Vorbereitungsdienstes in Baden-Württemberg arbeitete er von 2003 bis Mitte 2007 als Wissenschaftlicher Mitarbeiter im Kompetenzzentrum Recht im DFN am Institut für Informations-, Telekommunikations- und Medienrecht an der Universität Münster bei Professor Dr. Thomas Hoeren. Seine Promotion zum Thema „Quotenregelungen im Rundfunk“ konnte er Ende 2007 erfolgreich abschließen.

    Der seit Juli 2007 in Hamburg zugelassene Rechtsanwalt arbeitet seit dem 1. August 2007 bei der DFN-CERT Services GmbH in Hamburg als Syndikus. Seine Interessenschwerpunkte liegen im Medien-, Informationstechnologie- und Datenschutzrecht und werden durch zahlreiche Fachveröffentlichungen belegt.

    Auf dem Jahrestreffen referierte er über „Vorratsdatenspeicherung, Online-Durchsuchung & Co. – Recht und Gesetz sind nicht immer dasselbe“. Vor gut gefülltem Auditorium erklärte er die diversen Überwachungsgesetze, die entweder jünst erlassen wurden oder gerade in der Mache sind.

    Hier seine Präsentation:

    Jan Köcher: Vorratsdatenspeicherung, Online-Durchsuchung & Co. – Recht und Gesetz sind nicht immer dasselbe (PDF-Datei, 17 S., 388 KB).

    Tags: Jahreskonferenz, Jahreskonferenz 2008, Jan Köcher, Netzwerk Recherche, Onlinedurchsuchung, Überwachung, Vorratsdatenspeicherung

  • Journalismus & Recherche » Blog Archive » Google Basics: Alles was man (mindestens) wissen muss

    Hinweis: Hier fehlen noch etliche Verlinkungen. Sie werden im Laufe des Tages ergänzt. Ich bitte um Verständnis. Gute Nacht 😉

    Google hat laut „heise online“-Newsticker in Deutschland im September 2006 die 90-Prozent-Hürde beim Marktanteil in Deutschland genommen. Das heißt, mehr als 90 Prozent der Web-Suchanfragen in Deutschland werden bei Google gestellt – und von Google beantwortet. Wie es dazu kam? Google hat sich mit seiner Pagerank-Suchtechnologie und einer einfachen Bedienung die Marktführerschaft erobert und gilt seither als Suchmaschine Nr. 1 im Web. In vielen Browsern ist Google seit Jahren als Standardsuchmaschine voreingestellt.

    Wir können zwar damit unzufrieden sein, dass Google so marktbeherrschend ist. Fakt ist allerdings: Google ist neben oder vielleicht sogar vor Yahoo und MSN nach wie vor die beste Allround-Suchmaschine. Aus Recherche-Sicht ist es sicher klug, viele Suchmaschinen, vor allem auch Spezialsuchmaschinen, zu kennen. Aber wenigstens den Marktführer Google sollte man nicht nur kennen, sondern auch gut beherrschen. Daher hier die Basics zum Platzhirschen aus Mountain View (Kalifornien).

    PageRank: Wie Google das Web ordnet

    Eine Web-Suche auf Google gibt praktisch unendlich viele Suchergebnisse aus. Diese sind in gewisser Weise nach Relevanz sortiert. Die Einstufung der Relevanz geschieht vor allem auf Basis des so genannten Pagerank-Algorithmus. Das heißt vereinfacht: Seiten werden nach dem Kriterium Linkpopularität gerankt. Zeigen viele Links auf eine Seite gilt sie als wichtiger als eine wenig verlinkte Seite. Googles Pagerank-Algorithmus schaut dabei allerdings auch, ob schon ein Link ein relevantes Wort enthält, an welcher Stelle im Text das Wort oder Text-Stück steht, zum Beispiel ob in der Haupt-Überschrift oder im Fließtext. Mit dem geheim gehaltenen Pagerank-Algorithmus rechnen die Google-Rechenzentren dann aus, als wie relevant eine Seite im Vergleich zu anderen gilt. Linkt eine relevante Seite auf eine weniger relevante, geht mit dem Link etwas von der Relevanz der einen auf die andere über, es fließt „Google Juice“.

    So kommt es also zu den Ergebnissen bei einer Google-Suche. Doch trotzdem finden wir oft nicht das Gesuchte. Vielleicht weil die Stecknadel im Heuhafen für Google nicht die selbe Relevanz hat, wie sie für unsere Story hat. Vielleicht aber auch, weil Google uns genau für solche Spezialfälle bestimmte Methoden bietet, um die Suche im Heuhaufen einzugrenzen. Einige dieser Methoden wollen wir uns anschauen.

    Der Google-Suchschlitz

    Ein Teil des Erfolgs von Google beruht auf dem einfachen Interface, dem Suchschlitz (fast) ohne jegliches sonstiges „Gedöns“ und ohne störende Werbung. Doch hier gibt es schon Feinheiten zu beachten.

    1. Die Sprach- bzw. Landesversion: Unterschiedliche Landesversionen bringen mehr oder weniger stark unterschiedliche Ergebnisse. Probieren Sie es aus: Suche nach Hamburg bei google.de mit der zusätzlichen „Query“ „hl=de“ (hl steht für Home Language, de für deutsch), bei google.com mit „hl=en“ (englisch), bei google.com mit „hl=de“ und zuletzt bei google.de mit „hl=en“. Verwirrt? Ich auch.

      Also aufpassen dabei, welche „Version“ von Google wir gerade benutzen und ob etwa per so genanntem Safemode auch noch Google missfallende Inhalte bei der Ergebnisausgabe ausgefiltert werden, zum Beispiel Ergebnisse zu für Google vermeintlich pornografischen Inhalten, aber auch zu in Deutschland illegalen Nazi-Websites, die ja gerade Objekt der journalistischen Recherche – ganz legal – sein könnten. Schauen Sie dazu in die Adresszeile: Erscheint im Laufe der langen Adresse der Ausdruck „safe=off“, verläuft die Suche ungefiltert, erscheint dort „safe=active“, werden verdächtige Treffer ausgefiltert. Probieren Sie es aus.

    2. Schauen wir uns noch kurz die Umgebung des Suchschlitzes an: Je nach Spracheinstellung zeigt Google die Auswahl-Knöpfe an, mit denen man die Suche auf Seiten in der voreingestellten Sprache oder aus dem voreingestellten Land beschränken kann. Nicht immer zuverlässig, aber manchmal hilfreich. Wir lernen das nachher auf elegantere Art anzuwenden. Außerdem gibt es je einen Link zur Bilder-Suche (englisch „Images“), zur Groups-Suche im weltweiten, aber der breiten Öffentlichkeit weitgehend unbekannten Usenet mit zahllosen Diskussionsforen zu noch zahlloseren Themen, zur News-Suche nach Nachrichten aus Deutschland und aller Welt – einstellbar auf eigene Interessen –, zu einer Suche nach Produkten – ich habe die ehrlich gesagt noch nie probiert und kaufe meine Milch nach wie vor im Bioladen um die Ecke und Computer bei Apple, obwohl die noch nicht so ganz bio sind – sowie unter anderem Links zur „Erweiterten Suche“ und zu „Einstellungen“. Sind Sie denen schon mal gefolgt und haben geschaut, was sich dahinter verbirgt? Nein? Dann tun Sie es.
    3. Last but not least kann man sich bei Google über den Link in der Ecke oben rechts seit einiger Zeit einen Account anlegen und damit die Suchmaschine personalisieren. Manchmal praktisch, aber seien Sie sich bewusst, dass Google damit noch mehr Daten über Ihr Nutzerverhalten sammeln kann – bis hin zum kompletten Suchprotokoll. Außerdem führen am Ende der Google-Seiten Links zu verschiedenen Informationen des Unternehmens.

    Web-Suche mit Operatoren

    Jetzt kommen wir endlich zu den praktischen Tricks und Kniffen für die effiziente Benutzung von Google. Sorry, es hat etwas gedauert, aber das Vorwissen hilft hoffentlich beim Verständnis.

    Haben Sie sich mal gefragt, wie Sie Google sagen können, dass Sie alles über Begriff X finden wollen, zum Beispiel „Kohl“, aber ohne störende Treffer über Begriff „Y X“, zum Beispiel “Helmut Kohl“? Wie also Begriffe von einer Suche ausschließen? Ganz einfach: Mit der erweiterten Suche. Dort kann man in einem Feld eingeben, dass Ergebnisse „ohne die Wörter …“ gefunden werden sollen. Es geht aber noch einfacher. Probieren Sie mal die Funktion in der erweiterten Suche am Beispiel „‚Kohl’ ohne die Wörter ‚Helmut’“ und schauen Sie dann ins Adressfeld. Dort findet sich jetzt ein Minus-Zeichen vor „Helmut“. Das Minus ist ein so genannter Operator. Den können Sie auch einfach manuell in den Google-Schlitz eingeben – und schon erhalten Sie auf direktem Wege Treffer zu „Kohl ohne Helmut“. Übrigens: Google sagt zwar, dass der Operator „AND“ oder das Plus-Zeichen nicht angegeben werden müssen, denn es würden alle Suchbegriffe automatisch mit einbezogen – allerdings filtert Google manche sehr häufigen Wörter, zum Beispiel solche, die es für Artikel oder Hilfsverben hält. Wenn Sie also das Wörtchen „der“ in allen Treffern bei der Suche nach „der spiegel“ (Suche vorerst ohne Anführungszeichen) enthalten haben wollen, setzen Sie ein Plus davor: „+der spiegel“.

    Es gibt weitere solcher Operatoren:

    Der Operator „OR“ oder „|“ sorgt dafür, dass Ergebnisse angezeigt werden, die entweder Begriff X oder Begriff Y oder beide zusammen enthalten. Beispiel: „Journalismus OR Recherche“ bringt Seiten zu „Journalismus“, zu „Recherche“ und Seiten, die beides enthalten.

    Der Operator „~“ sorgt sogar dafür, dass auch nach Synonymen zu darauf folgenden Wörter gesucht wird. Eine Suche nach „travel ~guide“ bringt etwa auch Treffer zu „travel tips“.

    Der Operator „..“ zwischen zwei Zahlenwerten eingesetzt führt dazu, dass alle Werte zwischen diesen Zahlen gesucht werden. Beispiel (mit Dollar-Zahlenwert): „ticket $250..$1000“ bringt Ergebnisse mit „ticket“ und einer Dollar-Angabe zwischen 250 und 1000.

    Und einer der wichtigsten Operatoren überhaupt: Gänsefüßchen bzw. Anführungszeichen. Mehrere Ausdrücke in Anführungszeichen zu setzen führt dazu, dass Google nur noch nach genau dieser exakten Phrase sucht. Die Suche nach „“Helmut Kohl““ bringt eben wirklich nur noch Seiten mit dem Ausdruck „Helmut Kohl“, und findet etwa nicht „Der kleine Helmut isst gern Kohl“ oder „Vater kocht Kohl für Helmut“.

    Eingrenzen mit Google-Syntax

    Die Google-Syntax bietet noch mehr Möglichkeiten der Eingrenzung und Filterung ansonsten ellenlanger Ergebnislisten. Das Kürzel „site:“ beispielsweise. Daran lässt sich ein Domainname (recherche-info.de) oder auch nur eine so genannte Top-Level-Domain (.de, .com, .org usw.) anhängen, um die Suche auf genau diesen Domainraum einzuengen. Das ist etwa besonders praktisch bei „taz online“. Dort sind die Archivinhalte bisher über die taz.de-Startseite selbst nicht zu finden. Sucht man hingegen mit „site:taz.de suchwort“ nach Inhalten, kann man ganz einfach und völlig kostenlos das gesamte taz-Archiv der letzten Jahre einsehen – wofür der taz-eigene Recherchedienst sonst Geld verlangt. Dieser kleine Trick mit Google ist übrigens völlig legal. Er funktioniert nur, weil das taz-Archiv nicht passwortgeschützt ist, sondern eigentlich ganz offen im Web liegt – bloß ist es eben von der taz.de-Startseite nicht verlinkt, so dass Unwissende nicht an die alten Artikel herankommen. Sie können es nun. Vorschlag: Die jährliche Ersparnis überweisen Sie einfach an recherche-info.de, Stichwort: Referentenförderung …

    Dann gibt es noch mehr im selben Stil. Mit der filetype-Attribut lassen sich Ergebnisse auf bestimmte Dateitypen beschränken, z. B. PDF-Dateien, Word-DOC-, RTF- oder sogar Flash-SWF-Dateien. Dazu tippt man in die Suchleiste einfach „filetype:pdf“, „filetype:doc“, „filetype:swf“ und so weiter, dazu natürlich das eigentliche Suchwort bzw. die gesuchte Zeichenkette, denn alle Google-Syntaxtechniken lassen sich natürlich weitgehend miteinander kombinieren. Die Suchanfrage „“thomas leif“ filetype:pdf site:netzwerkrecherche.de“ liefert etwa alle Fundstellen des Namens „Thomas Leif“ in PDF-Dokumenten auf dem Webserver netzwerkrecherche.de.

    Das ist noch lange nicht alles, womit man die Google-Suche schneller und effektiver machen kann. In der nächsten Folge schauen wir uns unter anderem die Möglichkeiten an, mit Trunkierung, also Sternchen (*), die Suche noch flexibler und gezielter zu gestalten. Und wir schauen, wie man Google dazu bringt, ganz oft Paris Hilton’s Gesicht auszugeben – aber auch wirklich nur ihr Gesicht.

    Tags: Boole’sche Operatoren, Firefox, Google, Google Blogsearch, Google Groups, Google Images, Google Maps, Google News, Grundwissen, Internet, MSN, Operator, Pagerank, Plug-in, Safari, Suche, Suchmaschine, Syntax, Web-Suche, WWW, Yahoo

  • Journalismus & Recherche » Data Driven Journalism

    Friday, April 20th, 2012

    Data Harvest Konferenz in Brüssel von Sonntag bis Dienstag, 6. bis 8. Mai 2012 in Brüssel, Erasmushogeschool, 70 Zespenningenstraat.

    Journalismfund.eu, Wobbing.eu und Farmsubsidy.org laden zur „Data Harvest“ Konferenz. Sie bietet Journalisten und Programmierern aus Europa beste Gelegenheiten grenzüberschreitend Kontakte zu knüpfen, sich zu vernetzen, das eigene Wissen zu mehren und auch konkrete Projekte voran zu bringen.

    Themenschwerpunkte sind Informationsfreiheitsgesetze und wie man an Daten kommt („Wobbing“), wie man die Daten verarbeitet und visualisiert („Journo Lab“), zudem werden erfahrene Journalisten Werkzeuge und Methoden in praktischen Workshops vorstellen. Ebenso werden die neuen Datenschätze von Farmsubsidy und deren Anwendungsmöglichkeiten vorgestellt.
    Referenten sind u.a. Brigitte Alfter, Helena Bengtson, Stefan Candea, Christina Elmer, Thommy Kaas, Nils Mulvad und Paul Myers.

    Teilnahmegebühr:
    70,- Euro (für die Konferenz und zwei Mittagessen (Montag und Dienstag), zu überweisen an IBAN: BE17 7330 5268 9521 / SWIFT-BIC: KREDBEBB / KBC Bank).

    Anmeldungen bis zum 27. April an:
    administration@journalismfund.eu – Bewerbungsschluss ist der 27. April!

    Detailinformationen, Programm und Liste vorgeschlagener Hotels:
    http://www.wobbing.eu/news/data-harvest-conference-2012 .

    Thursday, November 17th, 2011

    Das NDR-Medienmagazin ZAPP berichtet über Datenjournalismus. Dazu gibt’s die Interviews, die im Beitrag als Kurz-Statements erscheinen, in voller Länge (Links unten).

    Das Interview mit Lorenz Matzat, Freier Datenjournalist (24:17 min).

    Das Interview mit Christina Elmer, Datenjournalistin “stern” (39:34 min).

    Das Interview mit Stefan Wehrmeyer, Aktivist “Open Knowledge Foundation” (08:38 min).

    via netzpolitik

    Sunday, June 19th, 2011

    Welche Personen und Unternehmen spenden eigentlich an die Parteien? Bisher war es recht kompliziert, das herauszufinden: Einmal, weil ohnehin nur alle Spender ab 10.000 Euro veröffentlicht werden. Und dann, weil auch die Informationen über diese Spender schwer zugänglich waren. Einmal im Jahr veröffentlichte der Bundestag auf seiner Webseite eine große PDF-Datei mit den eingescannten Rechenschaftsberichten der Parteien. Man konnte die Dateien nicht automatisch durchsuchen. Wer wissen wollte, ob eine bestimmte Person oder ein bestimmtes Unternehmen zu den Parteispendern gehört, musste sich durch jeden einzelnen Jahrgang und durch mehrere tausend Seiten quälen.

    Die taz hat nun die Berichte der Parteien über ihre Spenden der Jahre 1994 bis 2009 aufbereitet und stellt eine Online-Suche zur Verfügung. Die Datenbank wird auch zukünftig aktualisiert, sobald die neuen Berichte erscheinen. Für das Bundestagswahljahr 2009 haben wir die Spender zudem in einer interaktiven Karte dargestellt. So kann jeder sehen, wo in der Nachbarschaft der nächste Parteispender wohnt. Die taz bietet die Daten auch in einem offenen Format zum Download und zur freien Weiterverwendung an.

    Auch die Leser werden einbezogen: Die taz ruft sie dazu auf, die Daten zu durchsuchen und Hinweise für weitere Recherchen zu geben. Gerade im Lokalen erwarten wir viele interessante Rechercheansätze. So wurde die Gertrudis-Klinik in Leun-Biskirchen etwa zum 1. Januar 2011 in den hessischen Landeskrankenhausplan aufgenommen. Statt 18 Betten für gesetzlich Versicherte hat das Krankenhaus seitdem bis zu 140 Kassenplätze. Verantwortlich für die Entscheidung war das CDU-geführte hessische Sozialministerium. Im Jahr 2009 hatte die Gertrudis-Klinik 15.000 Euro an die CDU gespendet. Unsere Leser können weitere sachdienliche Hinweise an die Mailadresse open@taz.de mailen.

    Die taz beauftragte opendatacity.de mit der Aufbereitung der PDFs. Die Mitarbeiter programmierten auch die Suchmasken für die maschinenlesbaren Daten. Rund sechs Personen waren in der taz insgesamt mit dem Projekt befasst, etwa einen Monat lang mit welchelnder Intensität. Als Kosten entstanden einige tausend Euro. Wenn man auch die Arbeitszeit der Festangestellten mitberücksichtigt, lagen die Kosten bei grob geschätzten 10.000 Euro. Die taz hat im vergangenen Monat die Kampagne „taz-zahl-ich“ gestartet und ruft ihre Leser dazu auf, freiwillig für die Inhalte auf taz.de zu zahlen. Wir hoffen, so einen Teil der Kosten wieder reinzuholen. Zum Start der Kampagne im April zahlten die Leser mehr als 10.000 Euro, im Mai waren es rund 4.700 Euro.

    Sebastian Heiser arbeitet als Redakteur bei der taz

    Sunday, April 17th, 2011

    Christina Elmer arbeitet bei der Deutschen Presse-Agentur dpa als dienstleitende Redakteurin für aktuelle Infografiken sowie als Trainerin für Web-Recherche und Computer Assisted Reporting (CAR). Zuvor baute sie bei der dpa Deutschlands erste CAR-Redaktion “dpa-RegioData” mit auf. Auf der re:publica hat sie den Vortrag „Datenjournalismus ganz praktisch – Wie Journalisten Daten finden und sicher nutzen“ gehalten und uns erlaubt, Ihre Folien (PDF, 61 kb) zu veröffentlichen. Einige Beispiele für Karten, die die dpa aus Daten produziert hat, fehlen, weil sie zu groß für das PDF waren. Ich finde besonders Folie 16 interessant, in der Christina ihre Erfahrungen dazu, wie verschiedene Datenquellen mit Anfragen umgehen, in einer Matrix dargestellt hat, eingeteilt nach Qualität, Bandbreite, Zugang und Service.

    Monday, October 25th, 2010

    Die Elektrischen Reporter basteln an einem neuen Video-Format namens ePolitik. Der erste veröffentlichte Testbeitrag kümmert sich um das Thema Open Data: Was ist das, warum gibt es diese Idee, was bewirkt sie bereits, was kann sie noch bewirken, wie ist die Situation in Deutschland – all diese Fragen werden angesprochen. Und natürlich die Frage, wie die rechtliche Situation derzeit aussieht (spoiler alarm: sehr kompliziert! ;-))

    Die Macher über die Idee hinter ePolitik:

    Internet und Politik stehen in einer wechselseitigen Beziehung zueinander: Einerseits hat sich das Web zu einem politischen Raum entwickelt, zum neuen Ort für politische Debatten, Kommunikation und Protest. Andererseits ist das Netz an vielen Stellen selbst Gegenstand von Politik und Gesetzgebung geworden, wie beispielsweise die heftige Debatte um Netzsperren zeigt. Verändert also die Politik das Netz oder ist es umgekehrt? Entwickelt sich beides aufeinander zu? Mit diesen und anderen Fragen aus der Schnittmenge von Internet und Politik beschäftigt sich ePolitik.

    Monday, July 12th, 2010

    Am Samstag habe ich gemeinsam mit Lorenz Matzat beim Jahrestreffen des Netzwerks Recherche einen Workshop zum Thema „OpenData und Journalismus“ geleitet. Hier sind die Folien:

    Opendata und Journalismus View more presentations from datenjournalist.

    Außerdem nochmal mal als PDF (2,4 MB) zum Runterladen.

    Friday, April 23rd, 2010

    Hauke Johannes Gierow berichtet vom ersten Open Data Hackday in Berlin. Open Data wird Thema eines Workshops mit Lorenz Matzat bei der Jahreskonferenz des Netzwerks Recherche sein, der am 10. Juli um 11.30 Uhr beim NDR in Hamburg stattfindet. Anmeldungen für das Jahrestreffen sind ab sofort möglich.

    Der erste deutsche Open Data Hackday (am 17./18. April) ist nun vorbei, und nach dem die meisten Teilnehmer schon während der re:publica fleißig dabei waren, sind Sie wohl größtenteils in einem Zustand euphorischer Erschöpfung wieder nach Hause gekommen. Viele neue Informationen, Anregungen, Ideen, Kontakte und viel Spaß hinterlassen halt auch ihre Spuren.

    (more…)

    Tuesday, April 20th, 2010

    Lorenz Matzat hat vergangene Woche im Blog des Open Data Network den folgenden Versuch einer Definition vorgestellt. Wir veröffentlichen den Text mit freundlicher Genehmigung; er steht unter der Lizenz CC-by-sa/3.0/de. Matzat wird Gast eines Workshops beim Jahrestreffen des Netzwerks Recherche sein, dass am 9. und 10. Juli in Hamburg stattfindet. Den genauen Termin geben wir bekannt, soblad er feststeht.

    Das Internet ist nicht arm an Buzzwords – Schlagworten, die für einige Zeit Konjunktur haben und sich eben etablieren oder wieder verschwinden. Data Driven Journalism (DDJ) geistert vermehrt seit vergangenem Jahr durch das Web. Im März 2009 startet die englische Tageszeitung The Guardian auf ihrer Website das Datablog; es ist eingebettet in einen Datastore und dürfte bislang als Referenz für DDJ gelten. Einer breiteren Öffentlichkeit wurde das Thema „Datenjournalismus“ in Deutschland durch die Zeitschrift „M – Menschen Machen Medien“ im März 2010 näher gebracht. Im Periodikum des Fachbereichs Medien der Gewerkschaft ver.di mit einer Auflage von 50.000 Exemplaren ging es um die „Spannende Recherche im Netz“.

    (more…)

  • Journalismus & Recherche » Blog Archive » Die New York Times über Google und SEO: Die schmutzigen kleinen Suchtricks

    In dem fantastischen Artikel The Dirty Little Secrets of Search beschreibt David Segal, wie die Firma für Suchmaschinen-Optimierung (SEO) SearchDex, offenbar im Auftrag der US-Kaufhauskette J.C. Penny, erfolgreich Googles Relevanz-Algorithmus hereingelegt hat. Die Geschichte ist ein Recherche-Lehrstück und zugleich spannende Aufklärung darüber, wie Googles Suche funktioniert.

  • Journalismus & Recherche » Rublic Relations

    Bei der nr-Fachkonferenz PR und Journalismus – zwischen Konfrontation und Kooperation an der Universität Hamburg habe ich zum Thema Wikipedia, Blogs, Foren : die PR-Profis schreiben mit. Quellenkritik im Internet vorgetragen.

    Die um Links ergänzten Folien habe ich gerade auf meinem Server publiziert [PDF, 28 S., 175 KB]. Sie sind eine Ergänzung zu meinen früheren Ausführungen über Quellenkritik im Netz.
    (more…)

  • Journalismus & Recherche » BonitoTV

    Der Fehler liegt nicht bei der Quelle, sondern bei dem, der nicht richtig recherchiert. Und das ist keine Frage des Internets. Das ist eine Frage der journalistischen Sorgfalt

    Gefunden habe ich das bei DWDL.de, wo unter dem Titel Recherche? „FAZ“ fällt auf falschen Schmidt rein die jüngste Online-Ente beschrieben wird.

    Die FAZ hat ernsthaft über eine vorgebliche Pressekonferenz berichtet, die angeblich Harald Schmidt auf Twitter gegeben hat. In dem entsprechenden Twitter-Account bedankt man sich auch artig für deren Berichterstattung: Lese gerade die FAZ und bin auf Seite 33. Vielen Dank für die Berichterstattung zur gestrigen Twitter-PK. Grüße !

    (more…)

  • Journalismus & Recherche » Blog Archive » Datenjournalismus ganz praktisch: Christina Elmer (dpa) auf der re:publica

    Christina Elmer arbeitet bei der Deutschen Presse-Agentur dpa als dienstleitende Redakteurin für aktuelle Infografiken sowie als Trainerin für Web-Recherche und Computer Assisted Reporting (CAR). Zuvor baute sie bei der dpa Deutschlands erste CAR-Redaktion “dpa-RegioData” mit auf. Auf der re:publica hat sie den Vortrag „Datenjournalismus ganz praktisch – Wie Journalisten Daten finden und sicher nutzen“ gehalten und uns erlaubt, Ihre Folien (PDF, 61 kb) zu veröffentlichen. Einige Beispiele für Karten, die die dpa aus Daten produziert hat, fehlen, weil sie zu groß für das PDF waren. Ich finde besonders Folie 16 interessant, in der Christina ihre Erfahrungen dazu, wie verschiedene Datenquellen mit Anfragen umgehen, in einer Matrix dargestellt hat, eingeteilt nach Qualität, Bandbreite, Zugang und Service.

  • Journalismus & Recherche » Frankfuter Allgemeine Zeitung

    Der Fehler liegt nicht bei der Quelle, sondern bei dem, der nicht richtig recherchiert. Und das ist keine Frage des Internets. Das ist eine Frage der journalistischen Sorgfalt

    Gefunden habe ich das bei DWDL.de, wo unter dem Titel Recherche? „FAZ“ fällt auf falschen Schmidt rein die jüngste Online-Ente beschrieben wird.

    Die FAZ hat ernsthaft über eine vorgebliche Pressekonferenz berichtet, die angeblich Harald Schmidt auf Twitter gegeben hat. In dem entsprechenden Twitter-Account bedankt man sich auch artig für deren Berichterstattung: Lese gerade die FAZ und bin auf Seite 33. Vielen Dank für die Berichterstattung zur gestrigen Twitter-PK. Grüße !

    (more…)

  • Journalismus & Recherche » Google-Basics

    Der trivialste, mithin aber der schwierigste Schritt einer Online-Recherche, ist die Auswahl der Suchbegriffe. Damit steht und fällt die Effizienz der Recherche: Ist ein falscher Begriff dabei, der in den gesuchten Seiten nicht vorkommt, finde ich diese nicht; sind zu wenige oder zu wenig treffende Begriffe dabei, ertrinke ich in der Vielzahl von Treffern.

    Eine universelle Lösung für dieses Problem habe ich nicht, aber eine Reihe von Regeln und Tipps:

    1.) Möglichst viele Suchbegriffe verwenden, Anzahl der Treffer reduzieren. Solange ich damit keine gewünschten Treffer ausschließe, kann und sollte ich weitere Suchbegriff hinzufügen. Beispiel: Auf der Suche nach dem Originaltext aus Shakespeares Hamlet kann ich dem Kernzitat [„to be or not to be“] problemlos alle weiteren Wörter aus dem Hamlet-Monolog hinzufügen, also: [„to be or not to be – that ist he question“]

    Im Beispiel reduziert sich die Anzahl der Treffer von 1 777 000 auf 704 000.

    2.) Was sind gute Suchbegriffe? Eigennamen von Personen, Werken, Orten, Gebäuden, Organisationen sind sehr gute Suchbegriffe. Solange es sich sinnvoll vermeiden lässt, sollten diese allerdings nicht als Phrase in Anführungszeichen gesucht werden! Die Anführungszeichen verhindern eine Suche nach anderen Schreibweisen, eingeschobenen weiteren Begriffen und anderen Abweichungen. (Am Beispiel einer Personensuche habe ich das hier ausführlich an einem Beispiel erklärt.)

    Im Zweifelsfall kurz die Ergebnisse mit und ohne Anführungszeichen vergleichen!

    3.) Wo finde ich gute Suchbegriffe?

    a) in der Trefferumgebung
    Beispiel: Nach der Eingabe von „to be or not to be“ kann ich, noch bevor ich eine der Trefferseiten aufrufe, weitere Suchbegriffe in der Ergebnisliste der Suchmaschine finden und mit ihnen meine Suchbegriffe ergänzen. In meinem Beispiel etwa die Begriffe [shakespeare hamlet] und die Ergänzung des Zitats (siehe 1.)

    b) in der Wikipedia Zum Einlesen ist sie immer geeignet – vor allem, wenn ich mit dem Thema nicht vertraut bin oder aber in einer Fremdsprache recherchiere. Mit dem Wörterbuch einen Suchbegriff treffend zu übersetzen, gelingt in der Regel nicht.

    Beispiel: ich habe mal lange mit dem Suchbegriff [sects] für Sekten gesucht – die Übersetzung ist zwar treffend, aber aus Gründen der political correctness verwenden die Amerikaner statt [sects] lieber den neutraleren Begriff [religious groups]

    4.) Zwei Ansätze: Nehme ich Suchbegriffe aus der Überschrift oder aus dem Inhalt? Paul Myers (BBC) verwendet die nachfolgende Analogie, wenn er erklärt, wie man an die Auswahl der Suchbegriffe herangehen kann: Gute Sachbücher haben ein Inhaltsverzeichnis und einen Index: Während ich im Index alle relevanten Fundstellen für einen Begriff finde, taucht der Suchbegriff im Inhaltsverzeichnis vielleicht nur an einer Stelle auf, dafür führt er dort zu einem sehr relevanten Eintrag.

    Wer in unserem Beispiel nach [berühmte Zitate Shakespeare] sucht, mag fündig werden, schließt aber alle Treffer aus, die für [berühmt] oder [Zitat] einen anderen Begriff verwenden, etwa auf Englisch.

    Pauls Beispiel zeigt diesen Denkansatz noch besser. Wer nach einer Liste ermordeter Prominenter sucht, kann natürlich überlegen, was jemand, der eine solche Liste erstellt, in die Überschrift schreibt. Schon nach ersten Überlegungen und nur auf Deutsch kommt dabei eine komplexe aber unzureichende Suchanfrage zustande:

    [(Liste OR Verzeichnis OR Übersicht) (ermordet OR getötet OR umgebracht OR erschossen) (Prominenter OR Politiker OR Stars OR Künstler)]

    Eine solche Schnittmengensuche mit Hilfe des Operators OR kann sinnvoll sein (dazu in einer späteren Folge mehr), in diesem Fall ist sie es nicht, da es zu viele Synonyme gibt, und ich diese zudem in 3-4 Sprachen berücksichtigen sollte.

    Zielführender ist hier die Frage: Welche Namen sollten auf der Liste auftauchen?

    [John F. Kennedy] sollte dabei sein. Wer noch? Statt nun weitere ermordete amerikanischen Präsidenten hinzugefügt werden, sollte überlegt werden, welche Namen möglichst einen größeren Zugewinn für diese Suche bringen. Etwa: [John Lennon] gut, ein Künstler, kein Politiker, aber auch USA [Gandhi] gut, anderer Kontinent (und nebenbei gleich 3 Ermordungen: Mahatma Gandhi, sowie Nehrus Tochter Indira Gandhi und deren Sohn Rajiv Gandhi] [Benazir Bhutto] gleicher Kontinent wie Gandhi, aber eine Ermordung, die noch nicht solange zurück liegt, damit werden inaktuelle Listen ausgeschlossen; (damit könnte man Gandhi wieder als Suchbegriff entfernen)

    [Caesar] gute Ergänzung, wenn die Liste, denn auch die ältere Geschichte abdecken soll.

    5.) Aus dem Beispiel unter 4. folgt der allgemeine Rat:
    Stell Dir das Dokument vor, dass Du suchst! Was steht da drauf? Welche Begriffe werden für das, was ich suche, verwendet?
    Tückisch sind viele Behördenseiten. So wird z.B. in Gesetzen und Verordnungen nicht von Prozentsätzen gesprochen, sondern von „von Hundert-Sätzen“ (v.H.) – der Suchbegriff [„v.H.“] ist daher auf der Suche z.B. nach Steuersätzen ein guter und erklärt, warum der Suchbegriff [Prozent OR %] oft weniger gut geeignet ist. Aber Achtung, das Bundesfinanzministerium verwendet in Pressemitteilungen durchaus Prozentangaben. Lösung: [„v.H.“ OR Prozent OR %].

    6.) Und sonst noch: Über Suchbegriffe a) Reihenfolge matters: bei 2 oder 3 Suchbegriffen macht die Reihenfolge einen Unterschied im Ranking der Treffer (nicht in der Anzahl. Beispiel zum Ausprobieren und Merken: [Hilton Paris] vs. [Paris Hilton] b) Synonyme berücksichtigen und mit [OR] verbinden! c) Substantive sind besser als Verben! d) Solange ich kein [+] oder [„“] benutze findet Google auch andere Schreibeweisen und trunkiert meine Suchbegriffe!

    z.B. [photographie] findet sowohl „Fotografie“ als auch „fotografisch“ oder „photographischen“