<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Journalismus &#38; Recherche &#187; Dachzeilen</title>
	<atom:link href="http://recherche-info.de/kategorie/dachzeilen/feed/" rel="self" type="application/rss+xml" />
	<link>http://recherche-info.de</link>
	<description>Tipps, Tricks und Fundsachen zu journalistischer Recherche und computer-assisted reporting</description>
	<lastBuildDate>Wed, 14 Jul 2010 21:45:37 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
		<item>
		<title>OpenData und Journalismus - Folien online</title>
		<link>http://recherche-info.de/2010/07/12/opendata-und-journalismus-folien-online/</link>
		<comments>http://recherche-info.de/2010/07/12/opendata-und-journalismus-folien-online/#comments</comments>
		<pubDate>Mon, 12 Jul 2010 21:47:18 +0000</pubDate>
		<dc:creator>Matthias Spielkamp</dc:creator>
				<category><![CDATA[CAR]]></category>
		<category><![CDATA[Data Driven Journalism]]></category>
		<category><![CDATA[Datenbank]]></category>
		<category><![CDATA[Dokumente]]></category>
		<category><![CDATA[Jahreskonferenz 2010]]></category>
		<category><![CDATA[Netzwerk Recherche]]></category>
		<category><![CDATA[Vorträge und Präsentationen]]></category>
		<category><![CDATA[analytische Recherche]]></category>

		<guid isPermaLink="false">http://recherche-info.de/2010/07/12/opendata-und-journalismus-folien-online/</guid>
		<description><![CDATA[Am Samstag habe ich gemeinsam mit Lorenz Matzat beim Jahrestreffen des Netzwerks Recherche einen Workshop zum Thema &#8222;OpenData und Journalismus&#8220; geleitet. Hier sind die Folien: Opendata und Journalismus View more presentations from datenjournalist. Au&#223;erdem nochmal mal als PDF (2,4&#160;MB) zum Runterladen.]]></description>
			<content:encoded><![CDATA[<p>Am Samstag habe <a href="http://immateriblog.de/about/">ich</a> gemeinsam mit <a href="http://www.datenjournalist.de/">Lorenz Matzat</a> beim Jahrestreffen des Netzwerks Recherche einen Workshop zum Thema &#8222;OpenData und Journalismus&#8220; geleitet. Hier sind die Folien:</p>
<div id="__ss_4736921" style="width: 425px;"><strong><a title="Opendata und Journalismus" href="http://www.slideshare.net/datenjournalist/opendata-und-journalismus">Opendata und Journalismus</a></strong><object id="__sse4736921" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" width="425" height="355" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0"><param name="allowFullScreen" value="true" /><param name="allowScriptAccess" value="always" /><param name="src" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=opendatajournalismusnetzwerkrecherchejuli2010spielkampmatzat-100712122344-phpapp01&amp;rel=0&amp;stripped_title=opendata-und-journalismus" /><param name="name" value="__sse4736921" /><param name="allowfullscreen" value="true" /><embed id="__sse4736921" type="application/x-shockwave-flash" width="425" height="355" src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=opendatajournalismusnetzwerkrecherchejuli2010spielkampmatzat-100712122344-phpapp01&amp;rel=0&amp;stripped_title=opendata-und-journalismus" name="__sse4736921" allowscriptaccess="always" allowfullscreen="true"></embed></object></p>
<div style="padding: 5px 0 12px;">View more <a href="http://www.slideshare.net/">presentations</a> from <a href="http://www.slideshare.net/datenjournalist">datenjournalist</a>.</div>
</div>
<p>Au&#223;erdem nochmal mal als <a href="http://immateriblog.de/wp-content/uploads/2010/07/opendata_journalismus_netzwerk_recherche_juli_2010_spielkamp_matzat.pdf">PDF</a> (2,4&#160;MB) zum Runterladen.</p>
]]></content:encoded>
			<wfw:commentRss>http://recherche-info.de/2010/07/12/opendata-und-journalismus-folien-online/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Paul Myers&#8217; Tipps &amp; Tricks</title>
		<link>http://recherche-info.de/2009/06/07/paul-myers-tipps-tricks/</link>
		<comments>http://recherche-info.de/2009/06/07/paul-myers-tipps-tricks/#comments</comments>
		<pubDate>Sun, 07 Jun 2009 13:45:15 +0000</pubDate>
		<dc:creator>Matthias Spielkamp</dc:creator>
				<category><![CDATA[CAR]]></category>
		<category><![CDATA[CAR-Tagung Hamburg]]></category>
		<category><![CDATA[Jahreskonferenz 2009]]></category>
		<category><![CDATA[Suchmaschinen]]></category>
		<category><![CDATA[Tricks, Tools, Tipps]]></category>
		<category><![CDATA[Vorträge und Präsentationen]]></category>

		<guid isPermaLink="false">http://recherche-info.de/?p=589</guid>
		<description><![CDATA[Um ehrlich zu sein: die beiden Workshops von Paul Myers haben erfahrenen Internet-Rechercheuren nicht viel Neues gebracht. Dennoch konnte man h&#246;ren, wie begeistert viele Teilnehmer waren, die sich nicht so intensiv mit dem Thema besch&#228;ftigt hatten. Insofern waren seine Pr&#228;sentationen ein gro&#223;er Erfolg. Auf drei Beispiele m&#246;chte ich aufmerksam machen, die auch f&#252;r mich sehr [...]]]></description>
			<content:encoded><![CDATA[<p>Um ehrlich zu sein: die beiden <a href="http://recherche-info.de/2009/06/05/computer-recherche-auf-dem-nr-jahrestreffen-2009/">Workshops von Paul Myers</a> haben erfahrenen Internet-Rechercheuren nicht viel Neues gebracht. Dennoch konnte man h&#246;ren, wie begeistert viele Teilnehmer waren, die sich nicht so intensiv mit dem Thema besch&#228;ftigt hatten. Insofern waren seine Pr&#228;sentationen ein gro&#223;er Erfolg.</p>
<p>Auf drei Beispiele m&#246;chte ich aufmerksam machen, die auch f&#252;r mich sehr interessant waren:</p>
<ul>
<li><a href="http://recherche-info.de/2009/06/05/computer-recherche-auf-dem-nr-jahrestreffen-2009/">Domaintools</a> bietet eine <a href="http://domain-history.domaintools.com/">WHOIS-Historie</a> an. Das wusste ich nicht, kann es auch nicht oft nutzen, weil es sehr teuer ist - aber wenn man es wirklich mal braucht, ist es sehr gut, das zu kennen.</li>
<li>Man kann das Verzeichnis des Open Directory Projects mit der <a href="http://web.archive.org/collections/web/advanced.html">Way Back Machine</a> durchsuchen. Das ist eigentlich selbstverst&#228;dnlich, nur muss man auch darauf kommen. Myers hat es am Beispiel der Website Saddam Husseins gezeigt, indem er erst die Seite zum Irak <a href="http://www.dmoz.org/Regional/Middle_East/Iraq/">im aktuellen Verzeichnis</a> herausgesucht, dann die Adresse in die Way Back Machine eingegeben hat (die ja noch immer keine Volltextsuche besitzt), um zum <a href="http://web.archive.org/web/20021125113542/dmoz.org/Regional/Middle_East/Iraq/Government/">alten Verzeichnis</a> zu kommen - und sich dann <a href="http://web.archive.org/web/20021129053432/www.uruklink.net/iraq/epage1.htm">Saddams Website</a> aufzurufen (die im Unterverzeichnis Government liegt). Clever.</li>
<li>Was f&#252;r Nerds ist die Seite zu &#8222;<a href="http://26thgstreet.blogspot.com/2007/05/google-dorks-collection.html">Google dorks</a>&#8220;. Dazu gibt&#8217;s keine Erkl&#228;rung, weil es erstens zu lange dauern w&#252;rde und ich zweitens  den gr&#246;&#223;ten Teil selber nicht verstehe. :-( Aber ich arbeite dran.</li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://recherche-info.de/2009/06/07/paul-myers-tipps-tricks/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Europas digitale Bibliothek “Europeana” ist wieder online</title>
		<link>http://recherche-info.de/2009/01/04/europas-digitale-bibliothek-europeana-ist-wieder-online/</link>
		<comments>http://recherche-info.de/2009/01/04/europas-digitale-bibliothek-europeana-ist-wieder-online/#comments</comments>
		<pubDate>Sun, 04 Jan 2009 22:20:32 +0000</pubDate>
		<dc:creator>Matthias Spielkamp</dc:creator>
				<category><![CDATA[Datenbank]]></category>
		<category><![CDATA[Suchmaschinen]]></category>

		<guid isPermaLink="false">http://recherche-info.de/2009/01/04/europas-digitale-bibliothek-europeana-ist-wieder-online/</guid>
		<description><![CDATA[Robert Gehring &#252;ber Europas digitale Bibliothek “Europeana”, die wieder online ist.]]></description>
			<content:encoded><![CDATA[<p>Robert Gehring &#252;ber <a href="http://irights.info/blog/arbeit2.0/2008/12/29/europas-digitale-bibliothek-europeana-ist-wieder-online/">Europas digitale Bibliothek “Europeana”, die wieder online</a> ist.</p>
]]></content:encoded>
			<wfw:commentRss>http://recherche-info.de/2009/01/04/europas-digitale-bibliothek-europeana-ist-wieder-online/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Futter f&#252;r die Data-Mining-Nerds</title>
		<link>http://recherche-info.de/2008/09/15/futter-fuer-die-data-mining-nerds/</link>
		<comments>http://recherche-info.de/2008/09/15/futter-fuer-die-data-mining-nerds/#comments</comments>
		<pubDate>Mon, 15 Sep 2008 12:52:19 +0000</pubDate>
		<dc:creator>Matthias Spielkamp</dc:creator>
				<category><![CDATA[Datenbank]]></category>
		<category><![CDATA[API]]></category>
		<category><![CDATA[Data]]></category>
		<category><![CDATA[Daten]]></category>

		<guid isPermaLink="false">http://recherche-info.de/2008/09/15/futter-fuer-die-data-mining-nerds/</guid>
		<description><![CDATA[Two new APIs and a couple of chunky zip files… «&#160;Power of Information Task Force zeigt, was Briten und US-Amerikaner so alles mit &#246;ffentlichen Daten anfangen (oder anzufangen versuchen). Far out f&#252;r jemanden wie mich, aber insofern interessant, als es aufzeigt, wohin die Reise gehen kann.]]></description>
			<content:encoded><![CDATA[<p><a href="http://powerofinformation.wordpress.com/2008/07/02/two-new-apis-and-a-couple-of-chunky-zip-files/">Two new APIs and a couple of chunky zip files… «&#160;Power of Information Task Force</a> zeigt, was Briten und US-Amerikaner so alles mit &#246;ffentlichen Daten anfangen (oder anzufangen versuchen). Far out f&#252;r jemanden wie mich, aber insofern interessant, als es aufzeigt, wohin die Reise gehen kann.</p>
]]></content:encoded>
			<wfw:commentRss>http://recherche-info.de/2008/09/15/futter-fuer-die-data-mining-nerds/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Social Network Analysis im journalistischen Einsatz</title>
		<link>http://recherche-info.de/2006/06/06/social-network-analysis-im-journalistischen-einsatz/</link>
		<comments>http://recherche-info.de/2006/06/06/social-network-analysis-im-journalistischen-einsatz/#comments</comments>
		<pubDate>Tue, 06 Jun 2006 09:52:35 +0000</pubDate>
		<dc:creator>Matthias Spielkamp</dc:creator>
				<category><![CDATA[CAR-Tagung Hamburg]]></category>
		<category><![CDATA[Kurz mitgeteilt]]></category>
		<category><![CDATA[Vorträge und Präsentationen]]></category>
		<category><![CDATA[CAR]]></category>
		<category><![CDATA[Data Mining]]></category>

		<guid isPermaLink="false">http://recherche-info.de/2006/06/06/social-network-analysis-im-journalistischen-einsatz/</guid>
		<description><![CDATA[Haiko Lietz hat jetzt die Folien seines Vortrags (PDF, Vorsicht: 4,4&#160;MB) ver&#246;ffentlicht, den er bei der CAR-Tagung an der Akademie f&#252;r Publizistik gehalten hat (siehe auch den Eintrag zu seinem Vortrag bei recherche-info.de).]]></description>
			<content:encoded><![CDATA[<p>Haiko Lietz hat jetzt die Folien seines Vortrags <a href="http://www.haikolietz.de/docs/jna.pdf ">(PDF</a>, Vorsicht: 4,4&#160;MB) ver&#246;ffentlicht, den er bei der CAR-Tagung an der Akademie f&#252;r Publizistik gehalten hat (siehe auch den <a href="http://recherche-info.de/2006/05/19/car-tagung-bei-der-akademie-fuer-publizistik-in-hamburg-haiko-lietz-social-networking-analysis/">Eintrag zu seinem Vortrag </a>bei recherche-info.de).</p>
]]></content:encoded>
			<wfw:commentRss>http://recherche-info.de/2006/06/06/social-network-analysis-im-journalistischen-einsatz/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Henk van Ess – Forensic Searching</title>
		<link>http://recherche-info.de/2006/05/21/henk-van-ess-forensic-searching/</link>
		<comments>http://recherche-info.de/2006/05/21/henk-van-ess-forensic-searching/#comments</comments>
		<pubDate>Sun, 21 May 2006 14:52:04 +0000</pubDate>
		<dc:creator>Matthias Spielkamp</dc:creator>
				<category><![CDATA[CAR-Tagung Hamburg]]></category>
		<category><![CDATA[Tricks, Tools, Tipps]]></category>
		<category><![CDATA[Veranstaltungen]]></category>
		<category><![CDATA[Vorträge und Präsentationen]]></category>
		<category><![CDATA[CAR]]></category>
		<category><![CDATA[Copy & Paste]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[Domain]]></category>
		<category><![CDATA[Metadaten]]></category>
		<category><![CDATA[PDF]]></category>
		<category><![CDATA[Schwärzung]]></category>
		<category><![CDATA[TLD]]></category>
		<category><![CDATA[Top-Level-Domain]]></category>
		<category><![CDATA[URI]]></category>
		<category><![CDATA[URL]]></category>
		<category><![CDATA[Web-Adresse]]></category>
		<category><![CDATA[Word]]></category>

		<guid isPermaLink="false">http://recherche.jmi.cc/2006/05/21/henk-van-ess-forensic-searching/</guid>
		<description><![CDATA[Henk demonstriert einige Methoden, mit deren Hilfe man einsch&#228;tzen kann, wie zuverl&#228;ssig die Informationen auf einer Website sind. Sch&#246;nes Beispiel: Welchen biografischen Informationen &#252;ber Martin Luther King kann man trauen? Er zeigt erstmal nur die Web-Adressen (URLs) der Seiten: martinlutherking.org martinlutherking.tk 213.198.79.178/members9/~melski/martinlutherking.htm www.psd267.wednet.edu/~kfranz/SocialStudies/MLKJr/martinlutherking.htm Die 213.198.79.178/etc.-Adresse ist unvollst&#228;ndig; wird nachgereicht, sobald Henk seine Pr&#228;sentation schickt. Erstes [...]]]></description>
			<content:encoded><![CDATA[<p>Henk demonstriert einige Methoden, mit deren Hilfe man einsch&#228;tzen kann, wie zuverl&#228;ssig die Informationen auf einer Website sind. Sch&#246;nes Beispiel: Welchen biografischen Informationen &#252;ber Martin Luther King kann man trauen? Er zeigt erstmal nur die Web-Adressen (URLs) der Seiten:</p>
<ul>
<li>martinlutherking.org</li>
<li>martinlutherking.tk</li>
<li>213.198.79.178/members9/~melski/martinlutherking.htm</li>
<li>www.psd267.wednet.edu/~kfranz/SocialStudies/MLKJr/martinlutherking.htm</li>
</ul>
<p>Die 213.198.79.178/etc.-Adresse ist unvollst&#228;ndig; wird nachgereicht, sobald Henk seine Pr&#228;sentation schickt.</p>
<p><span id="more-20"></span></p>
<p>Erstes Beispiel: die .org-Domain wird erstellt von Stromfront, einer rechtsradikalen US-Organisation, denn jeder kann sich eine .org-Domain anmelden, die Registrierung ist „offen“. Die .tk-Seite zeigt er gar nicht, sondern charakterisiert die .tk-Registrierungsagentur als „die Kokaindealer des Webs“. „.tk“ steht f&#252;r Tokelau; praktisch jeder Antragsteller bekommt dort eine Domain, es ist also h&#246;chste Vorsicht geboten. Bei der dritten URL schlie&#223;lich deuten die Bestandteile „members9“ und die Tilde (~) darauf hin, dass es sich um eine private Homepage handelt. Bei der letzten schlie&#223;lich zeigt die .edu-Domainendung, dass es sich um die Seite einer Bildungsinstitution handelt, denn .edu-Adressen bekommen nur Universit&#228;ten und Bildungseinrichtungen (zuerst nur die der USA und Kanadas, inzwischen auch in anderen L&#228;ndern – aber der Nachweis muss vorliegen, dass es sich um eine Bildungseinrichtung handelt). Mir fehlt der Hinweis, dass es sich auch bei der Seite mit .edu-Adresse um die Homepage eines Studenten handeln kann. Ob die dann glaubw&#252;rdiger ist als andere, muss nach anderen Kriterien beurteilt werden.</p>
<p>Jedenfalls sind .org-, .com- und .net-Domains niemals „gesch&#252;tzt“ gewesen, d.h. jeder konnte und kann sie sich registrieren lassen. Meine Anmerkung dazu: Auch die Abfragen der Domain-Inhaber f&#252;hren h&#228;ufig ins Leere, u.a. deshalb, weil es inzwischen so genannte Proxy(Stellvertreter-)-Dienste gibt, die nichts anderes tun, als f&#252;r andere als Strohmann Domains anmelden und es damit ohne Unterst&#252;tzung staatlicher Ermittler nahezu unm&#246;glich machen, Domain-Inhaber zu identifizieren. Henk empfiehlt den „Social Engineering“-Ansatz: wom&#246;glich kommt man zum Erfolg, wenn man den technischen Admin anruft und nachfragt, wer die Domain registriert hat. Ist aber bei denjenigen, die es darauf anlegen, ihre Spuren zu verwischen, sehr unwahrscheinlich, damit zum Erfolg zu kommen. Eine gute Seite  zur Abfrage von Registrierungsinformationen ist <a href="http://www.samspade.org/">samspade.org</a>.</p>
<p>Bei einer .de-Domain ist es aber noch in den meisten F&#228;llen m&#246;glich, den Domaininhaber heraus zu bekommen, weil die Bestimmungen vorsehen, dass bei <a href="http://www.denic.de">Denic</a> (der deutschen Registrierungsagentur) verl&#228;ssliche Daten hinterlegt werden, die &#252;ber eine Domainabfrage bei Denic auch angezeigt werden. Allerdings ist es so, dass die Denic bzw. die privaten Anbieter, die Domains f&#252;r Privatpersonen dort registrieren, bei Anmeldungen nicht verlangen, dass z.B. ein Personalausweis vorgelegt wird.</p>
<p>Sch&#246;ner Hinweis auf <a href="http://www.alexa.com/">Alexa Search</a>, wo unter &#8222;<a href="http://www.alexa.com/#">Traffic Ranking</a>&#8220; f&#252;r eine bestimmte Seite auch <a href="http://www.alexa.com/data/details/main?q=&#038;url=spiegel.de">angezeigt wird</a>, wer welche Websites registriert hat (etwa der Spiegel-Verlag mit spiegel.de, manager-magazin.de, wahreliebe.de und vielen anderen). Selbstverst&#228;ndlich k&#246;nnen Anbieter auch diese M&#246;glichkeit unterlaufen, wenn sie sich mit unterschiedlichen Angaben registrieren lassen. Die Chance, dennoch interessante Informationen zu bekommen, sollte man sich aber nicht entgehen lassen, denn viele Anbieter kennen die vielf&#228;ltigen M&#246;glichkeiten zur Recherche eben gar nicht.</p>
<p>Im n&#228;chsten Teil zeigte Henk, wie man herausfinden kann, was die Anbieter von bestimmten Informationen gerne verbergen w&#252;rden. Sein spektakul&#228;rster Fall: der Calipari-Report, in dem untersucht wird, wie es dazu kommen konnte, dass italienischen Geheimdienstmitarbeiter im Irak von US-Soldaten erschossen wurde. Das Dokument wurde als PDF-Fassung mit geschw&#228;rzten Stellen ver&#246;ffentlicht. Kopierte man den Text jedoch in ein Word-Dokument, verschwanden die Schw&#228;rzungen. Zum Vorschein kamen u.a. Angaben dazu, wie viele US-Soldaten (?) bis dahin im Irak ums Leben gekommen waren, Informationen also, die zu dem Zeitpunkt noch als vertraulich behandelt wurden.</p>
<p>Auch der Hinweis auf die Meta-Daten in Dateien (etwa in Word-Dokumenten) durfte nicht fehlen. Wie findet man  zum Beispiel heraus, wer der Autor eines Dokuments ist? Indem man das Men&#252; „Datei, Eigenschaften“ aufruft. Hat der Autor vergessen, die Informationen zu l&#246;schen, kann man dort neben dem Namen bisweilen auch die E-Mail-Adresse herausfinden. Sch&#246;ne Anmerkung Henks: Sollte jemandem jemals dieses Informationen helfen, um einem Autor auf die Spur zu kommen, und der fragt, woher man die Informationen habe: nicht verraten! Denn je weniger davon wissen, desto geringer wird die Wahrscheinlichkeit, auf diese Art an verwertbare Information zu kommen. Au&#223;erdem empfiehlt Henk aus derartigen Gr&#252;nden Kollegen, sich m&#246;glichst immer (auch) die elektronische Ausgaben eines Dokuments geben zu lassen.</p>
<p>Zus&#228;tzlich sollte man immer kontrollieren, ob ein Dokument in verschiedenen Versionen abgespeichert ist (Word bettet &#252;blicherweise verschiedene Bearbeitungsstufen in ein Dokument ein, die nachtr&#228;glich sichtbar gemacht werden k&#246;nnen, wenn der Autor vergessen hat, sie zu l&#246;schen). Henks Beispiel f&#252;r einen Geschichte, die daraus entstand, war die einer Stellungnahme (die Details habe ich leider nicht mitbekommen), in deren ver&#246;ffentlichtem Text man lesen konnte, dass der Premierminister eine bestimmte Haltung unterst&#252;tzt. In einer fr&#252;heren Version des Dokuments ist zu lesen, dass das Kabinett sie unterst&#252;tzt. Anhand der Tatsache, dass diese Passage wieder gestrichen wurde, konnte man zumindest schlie&#223;en, dass das Kabinett die Unterst&#252;tzung verweigert hatte. Ich komme im Moment nicht darauf, welche Aufsehen erregende Geschichte in Deutschland darauf beruhte, dass der Autor eines Dokuments vergessen hatte, die Versionen zu bereinigen. Vielleicht kann das einer der Kollegen erg&#228;nzen – oder unsere Leser, indem es jemand als Kommentar einf&#252;gt. Bitte recherchieren! (Ich kann grad’ nicht, sitze offline im Zug …)</p>
<p>Seine Buchempfehlung zum Thema: „<a href="http://www.oreilly.com/catalog/internetforensics/">Internet Forensics</a>“, erschienen bei O’Reilly.</p>
<p><a href="http://www.searchbistro.com/exit.php?url_id=1505&#038;entry_id=39">Henks Pr&#228;sentation als PDF</a> (1,1&#160;Mb, Englisch).</p>
]]></content:encoded>
			<wfw:commentRss>http://recherche-info.de/2006/05/21/henk-van-ess-forensic-searching/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Robots im journalistischen Einsatz – Sebastian Moericke</title>
		<link>http://recherche-info.de/2006/05/19/car-tagung-in-hh-robots-im-journalistischen-einsatz-sebastian-moericke/</link>
		<comments>http://recherche-info.de/2006/05/19/car-tagung-in-hh-robots-im-journalistischen-einsatz-sebastian-moericke/#comments</comments>
		<pubDate>Fri, 19 May 2006 14:53:34 +0000</pubDate>
		<dc:creator>Matthias Spielkamp</dc:creator>
				<category><![CDATA[CAR-Tagung Hamburg]]></category>
		<category><![CDATA[CAR]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[Datenformate]]></category>
		<category><![CDATA[DICAR]]></category>
		<category><![CDATA[Hamburg]]></category>
		<category><![CDATA[Robots]]></category>
		<category><![CDATA[Tagung]]></category>

		<guid isPermaLink="false">http://recherche.jmi.cc/2006/05/19/car-tagung-in-hh-robots-im-journalistischen-einsatz-sebastian-moericke/</guid>
		<description><![CDATA[Robots werden dann eingesetzt, wenn es darum geht, gro&#223;e Datenmengen zu erfassen. Man muss sich jedoch mit Datenformaten auseinandersetzen. Robots sind z.B. die Spider, Crawler etc. von Yahoo, MSN, Google usw. Eine typische Datenerfassung l&#228;uft ab nach dem Schema: Fragestellung Quellen- und Formatanalyse Auswahl Erfassungswerkzeug (Robot, Survey, Script) Anpassung, Testlauf Erfassung und Ablage Verarbeitung und [...]]]></description>
			<content:encoded><![CDATA[<p>Robots werden dann eingesetzt, wenn es darum geht, gro&#223;e Datenmengen zu erfassen. Man muss sich jedoch mit Datenformaten auseinandersetzen. Robots sind z.B. die Spider, Crawler etc. von Yahoo, MSN, Google usw.<br />
<span id="more-17"></span><br />
Eine typische Datenerfassung l&#228;uft ab nach dem Schema:</p>
<ul>
<li>Fragestellung</li>
<li>Quellen- und Formatanalyse</li>
<li>Auswahl Erfassungswerkzeug (Robot, Survey, Script)</li>
<li>Anpassung, Testlauf</li>
<li>Erfassung und Ablage</li>
<li>Verarbeitung und Analyse</li>
<li>Story!</li>
</ul>
<p>„Prozent is your friend“: % ist ein „Stemming“-Zeichen f&#252;r Datenbankabfragen. Wenn der Programmierer gepennt hat, kann man mit der Einagbe des %-Zeichens den gesamten Datenbankinhalt auf einen Schlag abfragen.</p>
<p>Beispiel: PISA</p>
<p>Fragestellung: Langfristige Entwicklung der Schulen.</p>
<p>Problem: Daten werden z.T. nicht so lange gespeichert oder sind unm&#246;glich einzeln im Nachhinein zu erfassen.</p>
<p>Normale L&#246;sung: Vereinfachen, begrenzen. Das Problem daran ist die eingeschr&#228;nkte Perspektive, also wenn man etwa die R&#252;tli-Schule ausw&#228;hlt. CAR hilft hier bei der Langzeit-Datenextraktion und Speicherung: Welche Klassenst&#228;rke, wieviel Sch&#252;ler etc. Die Daten sind auch kostenpflichitg zu bekommen, aber relativ teuer (700 Euro).</p>
<p>Schwierigkeit: L&#228;nder haben Bildungshoheit, so dass die Daten in x Quellen und n Formaten vorliegen. Die CAR-L&#246;sung ist, Datenadapter zu schreiben f&#252;r verschiedene Bundesl&#228;nder. Sebastian f&#252;hrt vor, wie er einen Server des NRW-Bildunsgministeriums abfragt, bekommt durch Einsatz des %-Zeichens alle Datens&#228;tze angezeigt: Schulform, Ort, Adresse etc. Die Idee dahinter: Analyse der Vorher-/Nachher-Versprechen zur Schulpoliitk. Sebastian speichert Quelltext der Seite, l&#228;sst ihn anzeigen und demonstriert, wie man in diesen Informationen Muster erkennen kann.</p>
<p>Um die Daten zu extrahieren, kann man nun einen Robot einsetzen. Zur Demonstration ersetzt Sebastian bestimmte Teile eines Datenausschnitts durch Leerzeichen (mithilfe der „Suchen und Ersetzen“-Funktion des Texteditors). So kann man auf diese Art bestimmte Listen erstellen, etwa alle offenen Gesamtschulen, oder auch eine Aufschl&#252;sselung der Kurse, die an diesem Gesamtschulen unterrichtet und belegt werden. Die Idee etwa f&#252;r eine Geschichte, die man mit derartigen Daten unterst&#252;tzen k&#246;nnte: Wie ver&#228;ndern sich die Vorlieben von Sch&#252;lern bei der Wahl der Sprachen, die sie lernen? Diese Daten bek&#228;me man unter Umst&#228;nden auch von der Pressestelle, aber nicht immer – und auch nicht kostenlos.</p>
<p>Sebastian demonstriert eine Anwendung mit dem Mac-Robot „Anthrazite“, aber diese Pr&#228;sentation ist zum Bloggen zu aufw&#228;ndig. In mehreren Schritten extrahiert er die Daten aus den Webseiten der 614 Bundestagsabgeordneten, um sie dann in einer Tabelle sortieren zu lassen – nach Religions- oder Ausschusszugeh&#246;rigkeit und vielem mehr. Das l&#228;sst sich „von Hand“ nur noch schwer erreichen. Man kann dabei systematische Fehler machen, aber z.B. keinen Fehler beim Abtippen.</p>
<p>Kapau ist f&#252;r derartige Analysen das beste Werkzeug, aber die Lizenz ist sehr teuer. Marcus Lindemann erg&#228;nzt, dass die d&#228;nische Organisation DICAR, mit der es eine Zusammenarbeit gibt, bei Bedarf ihr Programm zur Verf&#252;gung stellen w&#252;rde, wenn es eine sinnvolle journalistische Anwendung daf&#252;r gibt.</p>
<p>Sebastian, der demn&#228;chst auch hier bloggen wird, wird bald eine Liste mit den Programmen hier erg&#228;nzen.</p>
]]></content:encoded>
			<wfw:commentRss>http://recherche-info.de/2006/05/19/car-tagung-in-hh-robots-im-journalistischen-einsatz-sebastian-moericke/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>CAR-Tagung in Hamburg: Haiko Lietz &#252;ber Social Networking Analysis</title>
		<link>http://recherche-info.de/2006/05/19/car-tagung-bei-der-akademie-fuer-publizistik-in-hamburg-haiko-lietz-social-networking-analysis/</link>
		<comments>http://recherche-info.de/2006/05/19/car-tagung-bei-der-akademie-fuer-publizistik-in-hamburg-haiko-lietz-social-networking-analysis/#comments</comments>
		<pubDate>Fri, 19 May 2006 10:55:27 +0000</pubDate>
		<dc:creator>Matthias Spielkamp</dc:creator>
				<category><![CDATA[CAR-Tagung Hamburg]]></category>
		<category><![CDATA[Enten, Scoops & Lehrstücke]]></category>
		<category><![CDATA[Veranstaltungen]]></category>
		<category><![CDATA[AfP]]></category>
		<category><![CDATA[Akademie für Publizistik]]></category>
		<category><![CDATA[Beziehungsnetzwerk]]></category>
		<category><![CDATA[CAR]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[Greenpeace]]></category>
		<category><![CDATA[Hamburg]]></category>
		<category><![CDATA[REACH]]></category>
		<category><![CDATA[Social Network]]></category>
		<category><![CDATA[Social Networking Analysis]]></category>
		<category><![CDATA[Tagung]]></category>
		<category><![CDATA[Veranstaltung]]></category>

		<guid isPermaLink="false">http://recherche.jmi.cc/2006/05/19/car-tagung-bei-der-akademie-fuer-publizistik-in-hamburg-haiko-lietz-social-networking-analysis/</guid>
		<description><![CDATA[Haiko Lietz h&#228;lt den ersten Vortrag des Tages zum Thema Social Network Analysis. Wichtig ist ihm die Unterscheidung von Umfrageforschung und Netzwerkanalyse, da die Umfrageforschung blind f&#252;r Strukturen ist, die Netzwerkanalyse aber aber get davon aus: das Gesamte ist mehr als Summe der Einzelteile. Das Problem beim Datamining sei aber, dass das Instrument nur dann [...]]]></description>
			<content:encoded><![CDATA[<p>Haiko Lietz h&#228;lt den ersten Vortrag des Tages zum Thema Social Network Analysis.</p>
<p>Wichtig ist ihm die Unterscheidung von Umfrageforschung und Netzwerkanalyse, da die Umfrageforschung  blind f&#252;r Strukturen ist, die Netzwerkanalyse aber aber get davon aus: das Gesamte ist mehr als Summe der Einzelteile.</p>
<p><span id="more-15"></span></p>
<p>Das Problem beim Datamining sei aber, dass das Instrument nur dann sinnvolle Ergebnisse liefert, wenn man wei&#223;, wonach man sucht. Aber wie z.B. identifiziert man Terroristenzellen? Sind sie zentral? Bilden sie Cluster? Die Suche ohne scharfes Profil f&#252;hrt schnell zu false negatives und false positives - also zu Menschen, die grundlos verd&#228;chtigt werden, oder man findet eben nicht die &#8222;wahren&#8220; Verd&#228;chtigen / T&#228;ter. Ein Beispiel daf&#252;r sind die Untersuchungen von Valdis Krebs, der Terroristennetzwerke analysiert hat. (Zu finden <a target="_blank" href="http://recherche.jmi.cc/www.orgnet.com/prevent.html">hier</a>.)<br />
Ein weiteres Beispiel ist die Analyse der Verflechtungen in der &#246;sterreichischen Wirtschaft, die das Forschungsinstitut FAS erstellt hat (<a href="http://www.fas.at/presse/_downloads/format_43_04.pdf">PDF</a>).</p>
<p>Haikos bisher aufw&#228;ndigste Recherche: F&#252;r Greenpeace hat er die Lobbyverkn&#252;pfungen untersucht, die bei der Debatte um <a href="http://ec.europa.eu/environment/chemicals/reach.htm"><acronym title="Registration, Evaluation, and Authorisation of Chemicals" lang="en">REACH</acronym></a> (<span lang="en">Registration, Evaluation, and Authorisation of Chemicals</span>), einer EU-Chemierichtlinie, eine Rolle spielte. Ergebnis: Er hat Akteure mit Interessenkonflikten identifiziert, bei denen es vorher nicht  klar war, dass diese Konflikte bestehen. Auch sei ein sehr enger Prozess der Zusammenarbeit zwischen der EU-Kommission und der Industrie sichtbar geworden. (Ein <a href="http://www.greenpeace.org/international/press/reports/toxic-lobby-how-the-chemical">Report von Greenpeace zu <acronym title="Registration, Evaluation, and Authorisation of Chemicals" lang="en">REACH</acronym></a> ist hier zu finden, aber die Ergebnisse von Haikos Untersuchung sind noch nicht eingeflossen.)</p>
<p>Einwurf aus dem Publikum: Alle diese Infos sind bereits …</p>
<p>Haiko Lietz: F&#252;r einen, der in der Diskussion drin steckt, ist das bekannt. Aber: Man kann sich ein Bild davon machen, wie Netzwerke aufgebaut sind, wenn man nicht vor Ort ist. Au&#223;erdem sollte es einfach viel h&#228;ufiger gemacht werden, damit diee Verkn&#252;pfungen offensichtlich werden.</p>
<p>Anmerkung von Manfred Redelfs (Greenpeace, auch Autor dieses Blogs): Es ist immer gut, Verkn&#252;pfungen zu  analysieren und belastbar zu machen, statt immer nur anekdotisch berichten zu k&#246;nnen.</p>
<p>Haiko: Selbstverst&#228;ndlich kann man derartige Infos auch zur Karriereplanung nutzen, oder Unternehmen k&#246;nnen damit ihren Informationsfluss verbessern und zielgerichteter Infos lancieren.<br />
Erg&#228;nzung folgt noch, ebenso Haikos Folien, die er zur Verf&#252;gung stellen wird.</p>
]]></content:encoded>
			<wfw:commentRss>http://recherche-info.de/2006/05/19/car-tagung-bei-der-akademie-fuer-publizistik-in-hamburg-haiko-lietz-social-networking-analysis/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>
