Sentinel-2 machine learning dataset for tree species classification in Germany

ORCID
0000-0002-5831-6150
Affiliation
University of Göttingen
Freudenberg, Maximilian;
GND
1153145448
ORCID
0000-0001-7488-5030
Affiliation
Thünen Institute of Forest Ecosystems
Schnell, Sebastian;
ORCID
0000-0003-3777-5478
Affiliation
University of Applied Sciences and Arts - HAWK, Göttingen
Magdon,Paul

The dataset contains time series of bottom of atmosphere (BOA) reflectance from the Sentinel-2 satellite mission for tree species classification in a machine learning context.
BOA reflectance was computed with the FORCE processing engine (https://force-eo.readthedocs.io/en/latest/index.html) and the corresponding data cube is available at the CODE-DE (https://code-de.org/de/) or EO Lab (https://eo-lab.org/de/) platform. Alternatively, the BOA reflectance can be calculated using the provided FORCE parameter files (*.prm), guaranteeing that BOA values match the ones from the dataset.
The time series were extracted from the FORCE data cube for individual tree positions as they are collected in the field by the German national forest inventory (NFI). A detailed description of NFI methodology is available here: https://bwi.info/Download/de/Methodik/. The timespan for the satellite observations is from July 2015 to October 2022 and BOA reflectance is labelled with tree species, diameter of the stem measured at a height of 1.3 m, height of the tree, area of the crown as projected to the ground, and additional variables. The dataset contains about 83 million data points from about 360.000 trees covering all environmental conditions in Germany. As reference for geolocation, the centre of the closest 1 km cell of the INSPIRE grid to the corresponding sampling unit of the NFI was used. The exact locations of the sampling units and individual tree positions are confidential.
A short introduction on data access and analysis is provided in the Jupyter notebook (intro_to_dataset.ipynb) using Python.
A description of the variables is provided below (Methodology) and in the database (table meta_col) along with a code table for the tree species (x_species). For a more detailed description of the dataset, the applied methodology and a discussion of error sources, please refer to the linked data publication paper.

EPSG: 4326

Der Datensatz enthält Zeitreihen der Bottom-of-Atmosphere-Reflektion (BOA) der Sentinel-2-Satellitenmission für die Klassifizierung von Baumarten im Rahmen des maschinellen Lernens.
Die BOA-Reflektionen wurden mit der FORCE Prozessierungsumgebung (https://force-eo.readthedocs.io/en/latest/index.html) berechnet und der entsprechende Data Cube ist verfügbar bei CODE-DE (https://code-de.org/de/) oder EO Lab (https://eo-lab.org/de/). Alternativ können die BOA auch mit Hilfe der bereitgestellten FORCE-Parameterdateien (*.prm) berechnet werden, wodurch gewährleistet wird, dass die BOA-Werte mit denen des Datensatzes übereinstimmen.
Die Zeitreihen wurden aus dem FORCE-Data-Cube für die einzelnen Baumpositionen extrahiert, wie sie im Rahmen der Bundeswaldinventur (BWI) im Feld erhoben werden. Detaillierte Informationen zur BWI finden Sie unter folgendem Link: https://bwi.info/Download/de/Methodik/. Die Zeitspanne für die Satellitenbeobachtungen reicht von Juli 2015 bis Oktober 2022 und die BOA-Werte sind mit der Baumart, dem in 1,3 m Höhe gemessenen Stammdurchmesser, der Baumhöhe, der auf den Boden projizierten Kronenfläche und weiteren Variablen gekennzeichnet. Der Datensatz enthält etwa 83 Millionen Datenpunkte von etwa 360.000 Bäumen, die alle Umweltbedingungen in Deutschland abdecken. Als Referenz für die geographische Position wurde der Mittelpunkt der nächstgelegenen 1-km-Zelle des INSPIRE-Grids zu der entsprechenden Stichprobeneinheit der BWI verwendet. Die genauen Standorte der Stichprobeneinheiten und die Positionen der einzelnen Bäume sind vertraulich.
Eine kurze Einführung zu Datenzugriff und -analyse finden Sie im Jupyter-Notebook (intro_to_dataset.ipynb) unter Verwendung von Python.
Eine Beschreibung der Variablen findet sich weiter unten (Methodik) und in der Datenbank selbst (Tabelle meta_col), zusammen mit einer Codetabelle für die Baumarten (x_species). Eine detailliertere Beschreibung des Datensatzes, der verwendeten Methoden und eine Diskussion der Fehlerquellen finden Sie im Dokument zur Veröffentlichung der verlinkten Daten.

Cite

Citation style:
Could not load citation form.

Access Statistic

Total:
Downloads:
Abtractviews:
Last 12 Month:
Downloads:
Abtractviews:

Rights

Use and reproduction: