Detailansicht

Deep learning for semantic segmentation of fine grained land use land cover classes
leveraging OpenStreetMap, Open Data and high resolution RGB-NIR orthoimagery
Moritz Benedikt Langer
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Geowissenschaften, Geographie und Astronomie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Kartographie und Geoinformation
Betreuer*in
Andreas Riedl
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.79155
URN
urn:nbn:at:at-ubw:1-15841.67173.516586-0
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Präzise, feingranulare Geodaten zur Landnutzung und Landbedeckung (LULC) sind für eine Vielzahl von Anwendungen von entscheidender Bedeutung. Ihre Erstellung wird jedoch durch den Daten Engpass der manuellen Annotation, die für das Training von Deep-Learning-Modellen erforderlich ist, stark limitiert. Diese Masterarbeit untersucht eine beliebig skalierbare Alternative, indem sie die Machbarkeit und die Herausforderungen der Verwendung eines Workflows zur automatischen Generierung von Ground Truth Daten zur semantischen Segmentierung von feingranularen LULC erforscht. Es wurde eine automatisierte Datenverarbeitungspipeline entwickelt, um Crowdsourcing-basierte OpenStreetMap (OSM) Daten mit behördlichen Daten (INVEKOS) zu fusionieren und daraus Referenzdaten für ein eigens erstelltes, 40 Klassen umfassendes Schema zur semantischen Segmentierung von hochauflösenden (VHR) RGB-NIR-Orthofotos in Österreich zu generieren. Moderne Deep-Learning-Architekturen, darunter U-Net, DeepLabV3+ und SegFormer, wurden trainiert und systematisch evaluiert. Die Studie quantifizierte zudem den Einfluss des Nahinfrarot (NIR)-Bandes und analysierte die Auswirkungen der Klassengranularität auf die Modellleistung. Die Ergebnisse zeigen, dass die Transformer-basierte SegFormer-Architektur bei dieser komplexen Aufgabe traditionellen CNNs überlegen ist. Die Einbeziehung des NIR-Bandes erwies sich als moderat förderlich für klassenspezifische und gemittelte Segmentierungsleistung gemessen durch Intersection over Union und F1-Score. Eine zentrale Erkenntnis ist, dass die Modellleistung primär durch die Qualität der automatisch generierten Referenzdaten limitiert wird, wobei starke Klassen-Imbalancen und Inkonsistenzen in den OSM-Daten zum vollständigen Versagen des Modells beim Erlernen seltener oder funktional definierter Klassen führen. Darüber hinaus zeigt die Studie, dass das Training mit einem feingranularen Schema zu einer überlegenen Leistung bei einer breiter aggregierten Segmentierungsaufgabe führen kann. Die Analyse kommt zu dem Schluss, dass die erste Iteration der automatisierten Fusion von OSM und behördlichen Daten einen leistungsstarken und anpassungsfähigen Rahmen für die großflächige LULC-Kartierung bietet, der den Bedarf an manueller Annotation erheblich reduziert. Gleichzeitig wird jedoch deutlich, dass die Ergebnisse für viele feingranulare Klassen eher als diagnostisches Werkzeug zu interpretieren sind, das Landschaftskomplexität und Datenqualitätsprobleme aufzeigt, anstatt einer definitiven Karte. Die Arbeit leistet einen Beitrag in Form einer ersten Iteration eines robusten methodischen Konzepts sowie einer detaillierten kritischen Analyse für zukünftige Projekte im Bereich der feingranularen semantischen Segmentierung.
Abstract
(Englisch)
Accurate, fine-grained Land Use Land Cover (LULC) geodata are crucial for a wide range of applications, yet their creation is severely hampered by the "data bottleneck" of manual annotation required for training deep learning models. This thesis investigates a scalable alternative by exploring the feasibility and challenges of using an automatically generated ground truth dataset for a fine-grained LULC semantic segmentation task. An automated data processing pipeline was developed to fuse crowdsourced OpenStreetMap (OSM) data with authoritative governmental data (INVEKOS) to generate ground truth for a 40-class schema for semantic segmentation of Very High Resolution (VHR) RGB-NIR orthoimagery in Austria. State-of-the-art deep learning architectures, including U-Net, DeepLabV3+, and SegFormer, were trained and systematically evaluated. The study also quantified the impact of the Near-Infrared (NIR) band and analyzed the influence of class granularity on model performance. The results demonstrate that the Transformer-based SegFormer architecture outperforms traditional CNNs for this complex task. The inclusion of the NIR band proved a moderate performance increase for class-specific Intersection over Union, F1-Score, and mean Intersection over Union. A critical finding is that model performance is primarily limited by the quality of the automatically generated ground truth, with severe class imbalance and inconsistencies in OSM data leading to the model's complete inability to learn several rare or functionally defined classes. Furthermore, the study shows that training on a fine-grained schema can yield superior performance on a coarse, aggregated classification task compared to a model trained directly on coarse labels. This research concludes that this first iteration of automated fusion of OSM and authoritative data provides a powerful and adaptable framework for large-scale LULC mapping, significantly reducing the need for manual annotation. However, it also highlights that for many fine-grained classes, the resulting segmentation should be interpreted as a diagnostic tool that reveals landscape complexity and data quality issues, rather than a definitive map. The thesis contributes a robust methodological blueprint and a detailed critical analysis for future iterations of fine-grained semantic segmentation analysis.

Schlagwörter

Schlagwörter
(Deutsch)
Semantische Segmentierung Deep Learning Landnutzung und Landbedeckung LULC Feingranulare Klassifizierung OpenStreetMap OSM Automatisierte Referenzdatenerstellung Höchstauflösende Orthofotos Datenfusion
Schlagwörter
(Englisch)
Semantic Segmentation Deep Learning Land Use Land Cover LULC Fine-Grained Classification OpenStreetMap OSM Automated Ground Truth Generation VHR Orthoimagery Data Fusion
Autor*innen
Moritz Benedikt Langer
Haupttitel (Englisch)
Deep learning for semantic segmentation of fine grained land use land cover classes
Hauptuntertitel (Englisch)
leveraging OpenStreetMap, Open Data and high resolution RGB-NIR orthoimagery
Paralleltitel (Deutsch)
Deep Learning für die semantische Segmentierung feingranularer LULC-Klassen mittels OpenStreetMap, offenen Daten und hochauflösender RGB-NIR-Orthobilder
Publikationsjahr
2025
Umfangsangabe
ix, 75 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Andreas Riedl
Klassifikationen
54 Informatik > 54.72 Künstliche Intelligenz ,
54 Informatik > 54.74 Maschinelles Sehen ,
74 Geographie > 74.48 Geoinformationssysteme
AC Nummer
AC17629270
Utheses ID
77256
Studienkennzahl
UA | 066 | 856 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1