Baumdaten: UIG trifft CAR

Erstmals sind für Berlin die Rohdaten öffentlich, aus denen der Waldzustandsbericht erstellt wird. Um an die Daten zu gelangen half das Umweltinformationsgesetzes (UIG), mit Hilfe von Computer-assisted Reporting (CAR) entstand ein Artikel daraus. Kernaussage: Den Bäumen im Osten Berlins geht es etwas schlechter als denen im Westen der Stadt. Das war vorher noch nicht bekannt, denn der offizielle Bericht, der aus den Rohdaten erstellt wird, enthält nur Angaben über den Zustand der Bäume in Berlin insgesamt und differenziert nicht nach einzelnen Regionen. Anhand der Rohdaten – eine Datei im Excel-Format mit Angaben über alle 984 einzelnen Bäumen, die die Förster untersucht haben - war erstmals eine Differenzierung zwischen den Bäumen im Westen und Osten der Stadt möglich. Da die Rohdaten auch in anderen Bundesländern bisher noch nie veröffentlich wurden, folgt nun die Chronologie der Recherche für Kollegen, die das in anderen Bundesländern wiederholen möchten.

Die Idee zu der Recherche entstand am Freitag, den 13. Juni 2008, auf der Jahreskonferenz des Netzwerk Recherche in Hamburg, und zwar in dem Workshop zu „Computer Assisted Reporting“ (CAR) mit Sebastian Moericke-Kreutz von dpa RegioData. Er erwähnte dort, dass jährlich ein Waldzustandsbericht erstellt wird, aber die Rohdaten dazu bisher noch nicht veröffentlicht worden seien. Am darauffolgenden Montag schaute ich zunächst in den aktuellen Berliner Waldzustandsbericht und fragte dann bei der Senatsverwaltung (so heißen in Berlin die Landesministerien) für Stadtentwicklung an, der die Berliner Forste unterstellt sind. Ich fragte, ob dort die Rohdaten vorliegen und kündigte an, einen Antrag gemäß Umweltinformationsgesetz zu stellen.

Die Senatsverwaltung für Stadtentwicklung und später auch die Landesforstanstalt Eberswalde (dort werden die Rohdaten aus Berlin zusammen mit denen aus Brandenburg zu einem gemeinsamen Waldzustandsbericht zusammengefasst) mochten die Daten nicht so recht herausgeben. Erst nach einem längeren Mailverkehr und mehreren Hinweisen auf das Umweltinformationsgesetz kam schließlich knapp vier Wochen nach Beginn der Recherche die Mail mit den ersehnten Daten. Vom Netzwerk Recherche stammt die gute Idee, Anträge und Urteile zur Durchsetzung von Auskunftsansprüchen zu veröffentlichen, daher hier der Emailwechsel (PDF).

Die Datei mit den Rohdaten (Excel-XLS-Format) besteht aus einer Liste mit den 984 Bäumen, die im Jahr 2007 untersucht wurden. Viele Informationen sind codiert. In der Spalte „Baumart“ etwa stehen keine Namen, sondern Nummern. Die „51“ steht dabei zum Beispiel für die Stieleiche, die „71“ für die Flatterulme. Zur Decodierung brauchte es also noch eine Liste der verwendeten Codes, die ich auf erneute Anfrage auch erhielt.

Komplizierter war die räumliche Zuordnung der Bäume. Über den Standort jedes Baumes gab es dazu zum Beispiel folgende Informationen: „Forstamt Tegel, Abt 114, Uabt 2, Tf 2, PLOT 20001, Position 7, Baumnummer 32“. Die Angabe des Forstamtes war ein erster Anhaltspunkt, allerdings erstreckt sich der Zuständigkeitsbereich der vier Forstämter Berlins über mehrere Bezirke. Relevant ist nun die Zahl in der Spalte „Abt“. Diese Zahl findet sich auf den Karten der Waldgebiete Berlins wieder, wobei es vier unterschiedliche Karten für die vier Forstämter Berlins gibt: Tegel, Grunewald, Köpenick und Pankow (PDF).

Dann folgte die Puzzle-Arbeit, die in der Datei genannten Bäume den einzelnen Wäldern zuzuordnen. Ich richtete dafür in der Baumdaten-Datei eine neue Spalte „Gebiet“ ein und hatte damit am Ende eine Datei, in der dann zu jedem Baum das Gebiet, auf dem er steht, im Klartext zu lesen ist. Dann rechnete ich eine Weile mit den Daten herum: Wie steht es um die einzelnen Baumarten? Zwischen welchen Werten gibt es signifikante Zusammenhänge, zum Beispiel zwischen Fruktifikation und Kronenverlichtung? Und wie ist der Zustand der Bäume in den einzelnen Bezirken?

Schließlich lag mir noch daran, den Einwand auszuräumen, der immer wieder von den Mitarbeitern der Senatsverwaltung für Stadtentwicklung kam: Eine Aussage über den Zustand von Bäumen in kleineren Gebieten als dem Gesamtgebiet sei aus statistischen Gründen nicht möglich, weil dann die Zahl der Bäume in der Stichprobe zu klein werde. Das konnte ich mit den Rohdaten leicht widerlegen: Bei der Betrachtung aller 984 Bäume liegt die durchschnittliche Kronenverlichtung bei 24,81 Prozent, die Standardabweichung beträgt 12,34 Prozentpunkte, der Standardfehler liegt bei 0,3936 Prozentpunkten. Durch meine Einteilung der Bäume in drei Regionen sinkt tatsächlich die Zahl der Stichprobe und der Standardfehler steigt entsprechend. Die Region mit den wenigsten Bäumen hatte aber immer noch 216 Bäume, in der größten Region waren es 432 Bäume. Der Standardfehler bei der Region mit 432 Bäumen liegt bei 0,5941 Prozentpunkten, bei der Region mit 264 Bäumen liegt er bei 0,7599 Prozentpunkten. Der Standardfehler ist damit zwar deutlich höher als bei der Betrachtung aller 984 Bäume, aber angesichts der von 0 bis 100 reichenden Skala ist er doch sehr gering. Somit konnte ich zeigen, dass die Einwänder der zuständigen Mitarbeiter wohl eher Nebelkerzen sind und sich tatsächlich sehr wohl statistisch belastbare Aussagen über die Kronenverlichtung der Bäume in Teilregionen Berlins treffen lassen.

Die Ergebnisse standen am 1. September im Lokalteil Berlin der taz. Im Online-Angebot der taz gibt es eine Ergänzung für die Leser, die sich detaillierter informieren möchten: Unter dem Print-Text erschien ein Verweis auf die Seite www.taz.de/baumdaten mit dem Hinweis, dass es dort die Datei mit den Baumdaten zum Download gibt sowie Tipps dazu, wie die Leser selbst mit Hilfe des Umweltinformationsgesetzes an Umweltinformationen herankommen können.

Vielen Dank insbesondere an Sebastian Moericke-Kreutz, ohne den es die Idee für diese Recherche nicht gegeben hätte, und an das Netzwerk Recherche für die Jahreskonferenz!

Tags: , , , , ,

5 Responses to “Baumdaten: UIG trifft CAR”

  1. Post von McKinsey für Elite-Studis at 30 Jahre taz Says:

    […] PS: Wenn Sie diesen Eintrag interessant fanden, dann interessiert Sie womöglich auch, wie wir bei der taz vor ein paar Monaten an die detaillierten Daten über den Zustand der Bäume in …. […]

  2. Post von McKinsey at 30 Jahre taz – tazkongress vom 17. bis 19. April 2009 Says:

    […] PS: Wenn Sie diesen Eintrag interessant fanden, dann werden Sie womöglich auch gerne lesen, wie wir bei der taz vor ein paar Monaten an die detaillierten Daten über den Zustand der Bäume in Berlin gekommen sind. […]

  3. Gescheiterte Recherche at 30 Jahre taz – tazkongress vom 17. bis 19. April 2009 Says:

    […] In seinem Jahresbericht schildert der Beauftragte immer auch einige Einzelfälle. Und in dem heute veröffentlichten Bericht über das Jahr 2008 steht nun etwas über meine beiden Anträge - so kommt es, dass Sie auch einmal etwas über eine gescheiterte Recherche erfahren. Zum Glück gibt es aber auch Fälle, in denen Anträge über Behörden-Informationen erfolgreich sind… […]

  4. Journalismus & Recherche » Blog Archiv » Computer & Recherche auf dem nr-Jahrestreffen 2009 Says:

    […] Computer Assisted Reporting in Deutschland – Ein Überblick über die CAR-Landschaft Ludger Fertmann (Journalist), Thomas Mrazek (Journalist), Lars-Marten Nagel (dpa), Sebastian Möricke-Kreutz (dpa), Moderation: Christina Elmer (dpa) Sebastian Heiser (taz) präsentierte seine Recherche über die Berliner Baumdaten, über die er hier am 05.09.2008 schon gebloggt hatte: Baumdaten: UIG trifft CAR. […]

  5. Journalismus & Recherche » Blog Archiv » Reader: Auskunftsrechte kennen und nutzen Says:

    […] Assisted Reporting in Deutschland“ geht es gut zehn Minuten lang darum, wie man aus einer Excel-Datei mit den Rohdaten für den Berliner Waldzustandsbericht einen Artikel mache…. Der Workshop beginnt am Freitag um 12:15 Uhr im Raum R3 und wird moderiert von Christina Elmer […]