Posts Tagged ‘Metadaten’

15. DFN-Workshop in Hamburg

Wednesday, February 13th, 2008

(Kurze Notizen vom 15. DFN-Workshop „Sicherheit in vernetzen Systemen“ - einer Konferenz, die entgegen des ersten Eindruckes ziemlich viel für recherchierende Journalisten zu bieten hat.

Den Konferenzband gibts bei BoD:
15. DFN Workshop „Sicherheit in vernetzen Systemen“ / hrsg. v. Christian Paulsen
© Hamburg : DFN-CERT GmbH, 2008
ISBN 978-3-8334-7381-4 )

[AUde]

(more…)

Digitaler Informantenschutz - Material

Friday, June 15th, 2007

Hier die weiterführenden Links zum Workshop „Digitaler Informantenschutz“ von Jürgen Sell und Matthias Spielkamp bei der Jahreskonferenz des Netzwerks Recherche in Hamburg am 14. und 15. Juni 2007:

(Mit herzlichem Dank für die Unterstützung an Stefan Robiné und die ARD.ZDF Medienakademie)

Die Präsentation gibt’ s hier (gezippter Ordner, 3 MB, bitte zum Anschauen die Datei deutsch.html im Browser aufrufen).

  • „On the Internet, nobody knows you’re a dog“
  • Beispiel für Informationen, die Websites über den Surfer bekommen können
  • TechCrunch: AOL Proudly Releases Massive Amounts of Private Data
  • New York Times: A Face Is Exposed for AOL Searcher No. 4417749
  • Heise: US-Regierung verlangt von Google Herausgabe von Daten über Suchabfragen
  • Jörg Kruse: Verlauf, Cache und Cookies: Spuren beseitigen nach dem Surfen (Anleitung)
  • PortableApps.com - Portable software for USB drives | Your Digital Life, Anywhere™
  • Anonymisierende Suchmachinen:

  • Scroogle Scraper
  • Blackbox-Search
  • Surf-Proxies

  • Guardster
  • TOR - Anonymität online
  • Office-Metadaten

  • Microsoft Word bytes Tony Blair in the butt
  • telepolis: Das verräterische Microsoft-Dossier
  • Transrapid-Gutachten manipuliert?
  • Pentagon blamiert sich mit geschwärztem PDF-Dokument
  • Corriere della Sera - I rapporti ufficiali del caso Calipari
  • Joost’s Deal Plans Hidden in PDF Presentation
  • Metadaten löschen mit Microsofts eigenem Office-Plugin - nur für Windows, wenn ich das richtig verstanden habe
  • Datei- und Festplattenverschlüsselung

  • Cicero: Razzia im Morgengrauen
  • TrueCrypt - offizielle Site
  • TrueCrypt-Anleitung
  • File-Vault Anleitung
  • Steganografie-Software, Auswahl aus dem Heise-Softwarearchiv
  • weiterführende Informationen

  • Heise Security: Hintergrundinformationen zum Thema Sicherheit.
  • Heise-Softwarearchiv zu Sichercheit
  • Anonymitätstest bei GurusHeaven.de
  • Heise Browser-Check
  • Heise E-Mail-Check
  • Heise Netzwerk-Check
  • Metadaten in Bilddateien

    Wednesday, November 15th, 2006

    Professionelle Fotografen und Bildjournalisten machen nicht nur Bilder, sondern sie verbinden diese Bilder mit Texten. Das geschieht, um die Bilder recherchierbar zu machen; zum Beispiel werden Angaben über das Motiv, den Fotografen, Ort und Zeit der Aufnahme, Rechteinhaber, Schlagworte usw. gemacht.

    Normiert sind diese Datenformate in den Standards des International Press and Telecommunications Council (IPTC) und der Newspaper Association of America (NAA). Der neueste Standard, der die beiden Vorgänger ersetzen soll, ist NewsML, News Markup Language.

    Solche Daten werden z.B. in JPEG-Dateien im Bild selbst gespeichert und können durch Bildverarbeitungsprogramme angezeigt werden. Die Bilder enthalten also aussagekräftige Metadaten. Moderne Kameras vergeben diese Daten teilweise selbstständig, etwa Angaben zu Zeit und Ort eines Bildes. Diese Daten können zur Entlarvung von Personen führen, wie Presseberichte zeigen.
    (more…)

    Henk van Ess – Forensic Searching

    Sunday, May 21st, 2006

    Henk demonstriert einige Methoden, mit deren Hilfe man einschätzen kann, wie zuverlässig die Informationen auf einer Website sind. Schönes Beispiel: Welchen biografischen Informationen über Martin Luther King kann man trauen? Er zeigt erstmal nur die Web-Adressen (URLs) der Seiten:

    • martinlutherking.org
    • martinlutherking.tk
    • 213.198.79.178/members9/~melski/martinlutherking.htm
    • www.psd267.wednet.edu/~kfranz/SocialStudies/MLKJr/martinlutherking.htm

    Die 213.198.79.178/etc.-Adresse ist unvollständig; wird nachgereicht, sobald Henk seine Präsentation schickt.

    (more…)

    Die Spiderflüsterer

    Monday, May 15th, 2006

    Der „Robots Exclusion Standard“ aus Rechercheursperspektive

    Die Arbeitsweise aller Suchmaschinen beim Auffinden neuer Webseiten ist unspektakulär: Spezielle Programme, Robots, Bots oder Spider genannt, durchsuchen bekannte Webseiten nach Hyperlinks und laden die dadurch gefundenen Seiten via HTTP, um sie entweder in die Datenbank der Suchmaschine aufzunehmen, oder um sie in gleicher Weise zu durchsuchen. Konzeptionell ist dieser Vorgang ist bei allen Suchmaschinen wenig unterschiedlich (sie variieren vor allem in der Suchfrequenz und den zur Kenntnis genommenen Dateitypen).

    Fast jede Website hat Dateien oder Verzeichnisse, die für eine Suchmaschine nicht von Interesse sind, zum Beispiel Hintergrundgrafiken, Logos, Buttons, Longdesc-Texte usw. Andere, zum Beispiel in Framesets verwendete Navigationsspalten, soll eine Suchmaschine zwar nach deren Links durchsuchen, sie aber nicht selbst im Index aufführen, da die Navigationsspalte für sich genommen inhaltsleer ist - sie verweist ja nur auf die Inhaltsseiten. Das Wissen um diese Details hat selbstverständlich der Webadmin der entspechenden Site.

    Um die Kommunikation zwischen Webadmins und Suchmaschinen zu ermöglichen und zu systematisieren, wurde nach Diskussionen in einer Mailingsliste der Robots Exclusion Standard (RES) geschaffen. Er wurde niemals in den Kanon der RFC oder anderer Normensammmlungen aufgenommen, wird aber sehr häufig beachtet. Am wichtigsten ist vielleicht, dass die Wayback Machine den RES anwendet.

    Webmaster haben zwei Möglichkeiten, den RES zu nutzen: Sie können eine Datei robots.txt erstellen, und sie können in jeder HTML-Seite Metatags anbringen.

    Die Datei robots.txt

    Die Datei „robots.txt“ (deren Name aus Kompatibilitätsgrunden die 8/3-Konvention für Dateinamen einhält) muss als ASCII-Textdatei im Stammverzichnis der Website liegen. Ihr URL lautet also immer „http://[domain]/robots.txt“.

    In ihr kann der Webadmin festlegen, welche Dateien und Verzeichnisse der Spider ignorieren soll. Dabei kann er Wildcards einsetzen und Anweisungen an bestimmte Spider geben, sofern deren Bezeichnungen bekannt sind.

    Wenn ein Spider diese Datei liest und beachtet, werden bestimmte Dateien und Verzeichnisse also gar nicht erst an den Spider übertragen.

    Die RES-Metatags

    Zusätzlich kann in jede HTML-Datei der Metatag „meta name=’robots’ content=’index,follow’“ geschrieben werden. Dieser richtet sich unterschiedlos an alle Spider und setzt voraus, dass die entsprechende Datei übertragen und ihre Inhalte verarbeitet wurden. Die möglichen Angaben ‘index’/’noindex’ geben an, ob die Inhalte der Seite indiziert werden sollen, ‘follow’/’nofollow’ bezieht sich auf die Nachverfolgung von Hyperlinks. Soweit die Theorie…

    Praktische Auswirkungen

    Der immanente Widersinn des RES liegt auf der Hand: Es muss explizit genannt werden, was verschwiegen sein soll. Zum einen halten sich nicht alle Suchmaschinen an den RES, sei es, dass sie ihn ignorieren, sei es, dass sie gar die robots.txt gezielt auswerten.

    Zum Zweiten ist der RES ursrpünglich gedacht, um Suchmaschinen von Dateien fernzuhalten, die sie ohnehin nicht benötigen: Grafiken ohne wirklichen Inhalt oder Skripten im Verzeichnis „/cgi-bin“ etwa. Spätestens aber, seit archive.org die robots.txt auswertet, um zu erfahren, was nicht (öffentlich zugänglich) archiviert werden soll, müssen Webadmins auch sensible Informationen bekannt geben. Das macht die robots.txt für Rechercheure interessant. Schon allein, weil man mit einem Blick feststellen kann, ob der Verantwortliche den Unterschied zwischen einer unverbindlichen Nachricht an Spider und einem Passwordschutz für Verzeichnisse (der ja auch Suchmaschinen aussperrt) kennt.

    Das Beispiel

    Das wird klar, wenn man einen Blick in die robots.txt des Weißen Hauses wirft. (Um deren Webadmin nicht durch zu viele Klicks zu beunruhigen, verlinke ich hier auf eine lokal gespeicherte Kopie dieser Datei vom 14. Mai).

    Auffällig ist, dass der Webadmin des Weißen Hauses vor allem die Texte der Website aus öffentlichen Suchmaschinen und der Wayback Machine heraushalten möchte.

    Wohlvermerkt: Es ist nicht unsinnig, dass die Site des Weißen Hauses den RES nutzt: Für den (vermutlich regierungsinternen) Spider namens „whsearch“ sind die „Disallow“-Zeilen sehr viel weniger, und dem Anschein nach sinnvoll für eine umfassende Textsuche.

    Seine Anwendung ist aber unüberlegt. Stellvertretend für viele andere Websites liefert die robots.txt des US-Präsidenten quasi eine Übersicht über heikle Inhalte. Aus technischer Perspektive ist dies Vorgehen unsinnig. Die Verantwortlichen hätten den Webserver so konfigurieren können, dass z.B. nur Anfragen von bestimmten IP-Adressen erfolgreich sind, während allen anderen (inklusive Suchmaschinen) Fehlermeldungen oder unsensible Inhalte geliefert werden.

    Fazit: Beim Durchleuchten einer Website ist ein Blick in die robots.txt (oder deren Beobachtung z.B. durch Webdienste wie Changenotes obligat. Insbesondere kann die Datei Hinweise liefern, welche Inhalte die Betreiber einer Website als heikel ansehen, wenn sie nicht sogar eine ‘alternative Navigation’ ermöglicht.

    [AUde]