Kategorie: Allgemein

  • Journalismus & Recherche » 0190

    Schöne Infoseite, die Nora Kraft in der FAZ am Sonntag (4. Mai, S. 53) präsentiert: Telefonnummern anzurufen, die mit 0180 beginnen, kostet Geld. Von 3,9 Cent bis 14 Cent pro Minute. Die Gröschlein kann man sich sparen, denn die meisten Firmen, die diese Nummern angeben, haben auch „normale“ Festnetznummern. Welche das sind, zeigt das 0180-Telefonbuch von teltarif.de.

    Suchen kann man man nach dem Firmennamen, der 0180er-Nummer und der „Ersatznummer“. Außerdem gibt’s einen alphabetischen Index nach Firmennamen. Letzter verzeichnet allein unter „A“ über 1500 Einträge.

  • Journalismus & Recherche » Blog Archive » Kombinierbare Statistiken bei statista.org

    Christoph Drösser weist auf Zeit Online auf eine interessante Site hin:

    Zahlen für die Massen: Ob zu Sex, Politik, Wirtschaft oder Demografie: Auf statista.org lassen sich beliebige eigene Statistiken basteln – aus haufenweise seriösen Daten.

    Statista.org bietet derzeit etwa 1 Million freie Statistiken an – mit Quellenangabe, so dass deren Verläßlichkeit prüfbar ist. Man darf die Statistiken in Websites einbinden. Sehr schön ist, dass man die einzelnen Statistiken (mittels Flash-Animation) filtern, kombinieren und vergleichen kann. Nach erstem Test halte ich die Suchfunktion für gut.

    Statista wird von der Statista GmbH mit Sitz in Hamburg betrieben. (2007 gegründet, 8 Mitarbeiter, Gründer und Geschäftsführer Friedrich Schwandt, Tim Kröger. Die Nutzung kostenfrei, anzeigenfinanziert).

    Tags: Statista, Statistik, Webservice

  • Journalismus & Recherche » Telefonieren

    Schöne Infoseite, die Nora Kraft in der FAZ am Sonntag (4. Mai, S. 53) präsentiert: Telefonnummern anzurufen, die mit 0180 beginnen, kostet Geld. Von 3,9 Cent bis 14 Cent pro Minute. Die Gröschlein kann man sich sparen, denn die meisten Firmen, die diese Nummern angeben, haben auch „normale“ Festnetznummern. Welche das sind, zeigt das 0180-Telefonbuch von teltarif.de.

    Suchen kann man man nach dem Firmennamen, der 0180er-Nummer und der „Ersatznummer“. Außerdem gibt’s einen alphabetischen Index nach Firmennamen. Letzter verzeichnet allein unter „A“ über 1500 Einträge.

  • Journalismus & Recherche » Blog Archive » Bankdaten überprüfen

    Auf www.blz-suchen.de kann man mehr als eben nur die Bankleitzahlen überprüfen. Auch die Plausibilität von Kreditkartennummern und Kontonummern lässt sich prüfen. Welche journalistische Anwendung ich dahinter sehe? Keine alltägliche – aber wir hatten schon zweimal mit dem Thema zu tun. Zum einen brauchten wir plausible Daten für eine verdeckte Recherche (wollten ja nicht unbedingt eigene Kreditkartennummern angeben), zum anderen bestritt eine Firma, dass man Kontonummern und Bankleitzahlen einfach auf Ihre Stimmigkeit überprüfen könne. Für die BLZ bieten das ja auch viele Banken an, aber dass es auch für Konto- und Kreditkartennummern eine Site gibt, war mir neu.

    Genutzt wird die Seite übrigens auch von den Finanzämtern. Ein Steuerzahler hatte versucht, eine fingierte Malerrechnung abzusetzen und auch tatsächlich Geld auf das angegebene Konto überwiesen. Kontoauszug und Rechnung waren stimmig, das Geld offensichtlich auch gezahlt worden – doch die BLZ gab es gar nicht. Das überwiesene Geld kam also sicher zurück, da ist sich der Finanzamtsmitarbeiter jetzt sicher, nachdem er auf der Site war.

    (Quelle: Capital 5/2006, S.89; leider nicht online)

  • Journalismus & Recherche » Blog Archive » Pons „Deutsche Rechtschreibung“ kostenfrei im Netz

    Der Klett-Verlag hat sein Pons-Angebot im Netz erweitert. Schon seit März gab es die Wörterbücher für Englisch, Französisch, Spanisch, Italienisch, Polnisch, Russisch und das Bildwörterbuch frei im Netz (wiewohl als Beta-Versionen gekennzeichnet). Jetzt melden heise.de und die FAZ, dass die Deutsche Rechtschreibung (das Pendant zum Duden) ebenfalls zur kostenfreien Nutzung bereit steht.

    Zusätzlich gibt es Such-Erweiterungen für den Internet Explorer (ab Version 7) und Firefox (ab Version 2.0) und die Möglichkeit, Abfragemasken in die eigene Website einzubinden.

    Pons.eu – Das Sprachenportal
    www.pons.eu/

    Tags: Deutsche Rechtschreibung, Klett Verlag, Lexikon, Pons, Wörterbuch

  • Journalismus & Recherche » Blog Archive » Neue Nachrichtensuche: Silobreaker

    Nachrichtensuchen sind inzwischen zahlreich vorhanden. Nun kommt auch noch das Angebot der britischen Firma Silobreaker dazu. Diese Suche will mit den Großen konkurrieren, indem sie ungefähr 10.000 Nachrichtenseiten, Blogs und andere Quellen nicht nur durchsucht, sondern die Nachrichten auch automatisch mit Tags versieht und versucht, sie so zu präsentieren, dass sie in einem Kontext erscheinen. Wie der Screenshot zeigt, haut das derzeit noch nicht besonders überzeugend hin (warum ein Bild von Kate Moss zu einem Großfeuer in London?), aber man kann’s ja mal auf die Beobachtungsliste setzen… (MS)

    Tags: Google, Google News, Großbritannien, Internetsuche, Nachrichtensuche, Silobreaker, Suche

  • Journalismus & Recherche » Webservice

    Christoph Drösser weist auf Zeit Online auf eine interessante Site hin:

    Zahlen für die Massen: Ob zu Sex, Politik, Wirtschaft oder Demografie: Auf statista.org lassen sich beliebige eigene Statistiken basteln – aus haufenweise seriösen Daten.

    Statista.org bietet derzeit etwa 1 Million freie Statistiken an – mit Quellenangabe, so dass deren Verläßlichkeit prüfbar ist. Man darf die Statistiken in Websites einbinden. Sehr schön ist, dass man die einzelnen Statistiken (mittels Flash-Animation) filtern, kombinieren und vergleichen kann. Nach erstem Test halte ich die Suchfunktion für gut.

    Statista wird von der Statista GmbH mit Sitz in Hamburg betrieben. (2007 gegründet, 8 Mitarbeiter, Gründer und Geschäftsführer Friedrich Schwandt, Tim Kröger. Die Nutzung kostenfrei, anzeigenfinanziert).

  • Journalismus & Recherche » Tarif

    Schöne Infoseite, die Nora Kraft in der FAZ am Sonntag (4. Mai, S. 53) präsentiert: Telefonnummern anzurufen, die mit 0180 beginnen, kostet Geld. Von 3,9 Cent bis 14 Cent pro Minute. Die Gröschlein kann man sich sparen, denn die meisten Firmen, die diese Nummern angeben, haben auch „normale“ Festnetznummern. Welche das sind, zeigt das 0180-Telefonbuch von teltarif.de.

    Suchen kann man man nach dem Firmennamen, der 0180er-Nummer und der „Ersatznummer“. Außerdem gibt’s einen alphabetischen Index nach Firmennamen. Letzter verzeichnet allein unter „A“ über 1500 Einträge.

  • Journalismus & Recherche » Blog Archive » Wer wählt was? Tolle interaktive Daten-Visualisierung

    Die Köln International School of Design hat im Auftrag der Bundeszentrale für politische Bildung „neue Formen interaktiver Bildstatistiken zur Darstellung der sozialen Situation in Deutschland“ entwickelt. Das ist dabei heraus gekommen (Klick aufs Bild führt zur interaktiven Grafik):

    Tags: Bundeszentrale für politische Bildung (bpb), Köln International School of Design (KISD), Wahl, Wahlverhalten

  • Journalismus & Recherche » Blog Archive » Die Spiderflüsterer

    Der „Robots Exclusion Standard“ aus Rechercheursperspektive

    Die Arbeitsweise aller Suchmaschinen beim Auffinden neuer Webseiten ist unspektakulär: Spezielle Programme, Robots, Bots oder Spider genannt, durchsuchen bekannte Webseiten nach Hyperlinks und laden die dadurch gefundenen Seiten via HTTP, um sie entweder in die Datenbank der Suchmaschine aufzunehmen, oder um sie in gleicher Weise zu durchsuchen. Konzeptionell ist dieser Vorgang ist bei allen Suchmaschinen wenig unterschiedlich (sie variieren vor allem in der Suchfrequenz und den zur Kenntnis genommenen Dateitypen).

    Fast jede Website hat Dateien oder Verzeichnisse, die für eine Suchmaschine nicht von Interesse sind, zum Beispiel Hintergrundgrafiken, Logos, Buttons, Longdesc-Texte usw. Andere, zum Beispiel in Framesets verwendete Navigationsspalten, soll eine Suchmaschine zwar nach deren Links durchsuchen, sie aber nicht selbst im Index aufführen, da die Navigationsspalte für sich genommen inhaltsleer ist – sie verweist ja nur auf die Inhaltsseiten. Das Wissen um diese Details hat selbstverständlich der Webadmin der entspechenden Site.

    Um die Kommunikation zwischen Webadmins und Suchmaschinen zu ermöglichen und zu systematisieren, wurde nach Diskussionen in einer Mailingsliste der Robots Exclusion Standard (RES) geschaffen. Er wurde niemals in den Kanon der RFC oder anderer Normensammmlungen aufgenommen, wird aber sehr häufig beachtet. Am wichtigsten ist vielleicht, dass die Wayback Machine den RES anwendet.

    Webmaster haben zwei Möglichkeiten, den RES zu nutzen: Sie können eine Datei robots.txt erstellen, und sie können in jeder HTML-Seite Metatags anbringen.

    Die Datei robots.txt

    Die Datei „robots.txt“ (deren Name aus Kompatibilitätsgrunden die 8/3-Konvention für Dateinamen einhält) muss als ASCII-Textdatei im Stammverzichnis der Website liegen. Ihr URL lautet also immer „http://[domain]/robots.txt“.

    In ihr kann der Webadmin festlegen, welche Dateien und Verzeichnisse der Spider ignorieren soll. Dabei kann er Wildcards einsetzen und Anweisungen an bestimmte Spider geben, sofern deren Bezeichnungen bekannt sind.

    Wenn ein Spider diese Datei liest und beachtet, werden bestimmte Dateien und Verzeichnisse also gar nicht erst an den Spider übertragen.

    Die RES-Metatags

    Zusätzlich kann in jede HTML-Datei der Metatag „meta name=’robots’ content=’index,follow’“ geschrieben werden. Dieser richtet sich unterschiedlos an alle Spider und setzt voraus, dass die entsprechende Datei übertragen und ihre Inhalte verarbeitet wurden. Die möglichen Angaben ‘index’/’noindex’ geben an, ob die Inhalte der Seite indiziert werden sollen, ‘follow’/’nofollow’ bezieht sich auf die Nachverfolgung von Hyperlinks. Soweit die Theorie…

    Praktische Auswirkungen

    Der immanente Widersinn des RES liegt auf der Hand: Es muss explizit genannt werden, was verschwiegen sein soll. Zum einen halten sich nicht alle Suchmaschinen an den RES, sei es, dass sie ihn ignorieren, sei es, dass sie gar die robots.txt gezielt auswerten.

    Zum Zweiten ist der RES ursrpünglich gedacht, um Suchmaschinen von Dateien fernzuhalten, die sie ohnehin nicht benötigen: Grafiken ohne wirklichen Inhalt oder Skripten im Verzeichnis „/cgi-bin“ etwa. Spätestens aber, seit archive.org die robots.txt auswertet, um zu erfahren, was nicht (öffentlich zugänglich) archiviert werden soll, müssen Webadmins auch sensible Informationen bekannt geben. Das macht die robots.txt für Rechercheure interessant. Schon allein, weil man mit einem Blick feststellen kann, ob der Verantwortliche den Unterschied zwischen einer unverbindlichen Nachricht an Spider und einem Passwordschutz für Verzeichnisse (der ja auch Suchmaschinen aussperrt) kennt.

    Das Beispiel

    Das wird klar, wenn man einen Blick in die robots.txt des Weißen Hauses wirft. (Um deren Webadmin nicht durch zu viele Klicks zu beunruhigen, verlinke ich hier auf eine lokal gespeicherte Kopie dieser Datei vom 14. Mai).

    Auffällig ist, dass der Webadmin des Weißen Hauses vor allem die Texte der Website aus öffentlichen Suchmaschinen und der Wayback Machine heraushalten möchte.

    Wohlvermerkt: Es ist nicht unsinnig, dass die Site des Weißen Hauses den RES nutzt: Für den (vermutlich regierungsinternen) Spider namens „whsearch“ sind die „Disallow“-Zeilen sehr viel weniger, und dem Anschein nach sinnvoll für eine umfassende Textsuche.

    Seine Anwendung ist aber unüberlegt. Stellvertretend für viele andere Websites liefert die robots.txt des US-Präsidenten quasi eine Übersicht über heikle Inhalte. Aus technischer Perspektive ist dies Vorgehen unsinnig. Die Verantwortlichen hätten den Webserver so konfigurieren können, dass z.B. nur Anfragen von bestimmten IP-Adressen erfolgreich sind, während allen anderen (inklusive Suchmaschinen) Fehlermeldungen oder unsensible Inhalte geliefert werden.

    Fazit: Beim Durchleuchten einer Website ist ein Blick in die robots.txt (oder deren Beobachtung z.B. durch Webdienste wie Changenotes obligat. Insbesondere kann die Datei Hinweise liefern, welche Inhalte die Betreiber einer Website als heikel ansehen, wenn sie nicht sogar eine ‘alternative Navigation’ ermöglicht.

    [AUde]

    Tags: Metadaten