Detailansicht

Application of machine learning to weather-triggered hazards and damages in alpine territory
Georg A. Seyerl
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Geowissenschaften, Geographie und Astronomie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Meteorologie
Betreuer*in
Christoph Matulla
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.61343
URN
urn:nbn:at:at-ubw:1-25095.42405.201177-7
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Die Anwendung von entscheidungsbaumbasierten Machine Learning Methoden im Umfeld der Extremereignisvorhersage ist herausfordernd. Ungleich verteilte binäre Klassifikationsaufgaben bedingen einer passenden Gegenmaßnahme um die Vorhersagequalität des Modells in Bezug auf die Minderheitsklasse (Extremereignis) zu verbessern. Wir evaluieren das Potential unterschiedlicher Techniken [Branco, Torgo und Ribeiro, 2015] wie pre-processing, special purpose learning methods und post-processing durch ihre Anwendung auf random forests und gradient boosted trees. K-nearest neighbor Schwierigkeitsanalysen und unterschiedliche Validierungsmetriken wurden für zehn synthetische Datensätze ausgewertet und liefern die besten Ergebnisse für special purpose learning Methoden. Bezugnehmend auf Enigl u. a., 2019 analysieren wir die jährlichen Summen von Extremereignissen für sieben Kategorien und erweitern den Schadensdatensatz mit ’zeitlich unabhängigen’ Prädiktoren aus Terrain-, Vegetations-, Boden- und Geologiedaten. Der gesamte Datensatz wird auf Rutschungsereignisse reduziert und eine Schwierigkeitsanalyse für unterschiedliche geologische Domainen wird durchgeführt. Die Analyse zeigt den hohen Grad des Ungleichgewichtes und der Schwierigkeit welche, bei vergleichbaren synthetische Datensätzen, die Grenze valider Auswertemöglichkeiten darstellen. Ein umfangreicher Suszeptibilitätsmodellierungsversuch für die Ereigniskategorie Hangrutschung wird mit skalierten random forest (SXRF) und skalierten gradient boosted tree (SXGBT) Modellen aus dem XGBoost Framework [T. Chen und Guestrin, 2016] durchgeführt. Hierbei bezeichnet der Term ’skaliert’ die balancierte Gewichtung der Minoritäts- und Majoritätsklasse in der Kostenfunktion unter Berücksichtigung ihres globalen Ungleichgewichtes. SXRF liefert schlechtere Ergebnisse als SXGBT. Die 5-fach Kreuzvalidierung von SXGBT mit konsistente Sensitivitäten von ∼ 0.75 und den Flächen unter den Grenzwertoptimierungskurven von ∼ 0.8 deuten auf die Robustheit des Modells und der gewählten Prädiktoren hin. Die wichtigsten numerischen Prädiktoren sind ’Hangneigung’ (unter Berücksichtigung korrelierter Prädiktoren), ’Distanz zur nächstgelegenen Straße’, ’Distanz zur nächstgelegenen geologischen Grenzschicht’ und der Oberflächenparameter ’Bodendichte’. Die wichtigsten binären one-hot kodierten kategorischen Prädiktoren sind die Landbedeckungsklasse ’Wald’ und die geologischen Domänen ’Austroalpine Einheit’ und ’Siliciklastika’.
Abstract
(Englisch)
The application of tree-based machine learning methods in the field of hazard event prediction is challenging. The imbalanced binary classification task requires suitable countermeasures in order to enhance the models predictability of the minority class (hazard event). We estimate the potential of different techniques [Branco, Torgo, and Ribeiro, 2015], such as pre-processing, special purpose learning methods and post-processing, by applying them on random forests and gradient boosted trees under well known synthetic conditions. The special purpose learning methods outperform the pre- and post-processing approaches, whereto k-nearest neighbor difficulty analyses and various performance metrics for ten synthetic data sets are evaluated. Following up on Enigl et al., 2019 we analyse the yearly sum of hazard events for seven categories and expanded the Austrian hazard event space by ”time independent” features derived from terrain, soil, vegetation and geological data. The data is further filtered for slide events on which we perform a difficulty analysis for different geological domains. Thus, the analysis reveals the degree of imbalance and difficulty, at which comparable synthetic data sets tend to be in limbo of viability. Nevertheless, an extensive modeling approach for the hazard category slide is performed using scaled random forests (SXRF) and scaled gradient boosted trees (SXGBT), both implemented in the XGBoost framework [T. Chen and Guestrin, 2016]. Whereat, the term ”scaled” refers to the fact that weights are balanced in the cost function for minority and majority instances in relation to their global imbalance ratio. SXRF is outperformed by SXGBT and 5-fold cross validation scores indicate the robustness of the model with consistent sensitivity scores of approximately 0.75 and areas under the receiver operator curve of approximately 0.80. The most important numeric features are ”slope” (considering correlated features), ”minimum distance to street”, ”minimum distance to nappe boundary” and the ”topsoil physical property bulk density”. The most important binary one-hot encoded categorical features are the landcover class ”Woody” and the geological domains ”Austroalpine Units” and ”Siliclastic Rocks”. Non-linear tree-based machine learning methods may further improve data-driven models for susceptibility mapping of spatially non-persistent hazard events. Nevertheless, they depend heavily on the quality of the underlying feature and hazard event data.

Schlagwörter

Schlagwörter
(Englisch)
hazards damages slides machine learning random forest gradient boosting
Schlagwörter
(Deutsch)
Extremereignisse Hangrutschungen Machine Learning Random Forest Gradient Boosting
Autor*innen
Georg A. Seyerl
Haupttitel (Englisch)
Application of machine learning to weather-triggered hazards and damages in alpine territory
Publikationsjahr
2020
Umfangsangabe
vii, 49 Seiten : Diagramme
Sprache
Englisch
Beurteiler*in
Christoph Matulla
Klassifikationen
38 Geowissenschaften > 38.84 Meteorologie: Sonstiges ,
38 Geowissenschaften > 38.99 Geowissenschaften: Sonstiges ,
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC15723572
Utheses ID
54202
Studienkennzahl
UA | 066 | 614 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1