Detailansicht
Interpreting neural networks under latent confounding
Patrick Pollek
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Data Science
Betreuer*in
Sebastian Tschiatschek
DOI
10.25365/thesis.74802
URN
urn:nbn:at:at-ubw:1-16863.22265.668313-9
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Modelle des maschinellen Lernens werden zunehmend in verschiedenen Bereichen für entscheidungsintensive Prozesse hohen Risikos eingesetzt. Obwohl diese Modelle oft eine hohe Vorhersagegenauigkeit aufweisen, führt ihre komplexe Natur häufig zu einem Mangel an Interpretierbarkeit, was Barrieren für das menschliche Verständnis schafft und ethische Fragen aufwirft. In diesem Kontext wirken Störfaktoren (Confounder) als ein erschwerender Faktor, der die Interpretierbarkeit dieser Modelle weiter untergraben kann und sich auf Interpretationstechniken auswirken kann. Diese oft versteckten Faktoren können sowohl unabhängige als auch abhängige Variablen beeinflussen und die Zuverlässigkeit und Vertrauenswürdigkeit jeder abgeleiteten Interpretation beeinträchtigen. Üblicherweise regulieren oder berücksichtigen Forscher Störfaktoren, vernachlässigen jedoch oft interpretative Analysen solcher Modelle. Wenn interpretative Studien durchgeführt werden, bleibt die Auswirkung der Störfaktoren auf die Interpretationen weitgehend unerforscht und nicht quantifiziert. Daher besteht eine Untersuchungslücke im Verständnis, wie das Vorhandensein von konfundierenden Variablen die Interpretierbarkeit der Modelle beeinflussen könnte. Um diese Lücke zu schließen, bewertet diese Arbeit den Einfluss von konfundierenden Variablen auf die Interpretation von neuronalen Netzwerken in einem überwachten Umfeld, indem ICE-Diagramme und SHAP-Wert-Visualisierungen für neuronale Netzwerke gegenübergestellt und analysiert werden. Experimente zeigen, dass einfache vorwärts gerichtete neuronale Netzwerke empfindlich auf versteckte Konfundierung reagieren, insbesondere in Bezug auf die Relevanz der Variablen. Um diesen Problemen entgegenzuwirken, wird ein Modell auf Basis eines variationalen Autoencoders vorgestellt, das nahelegt, dass die Interpretationen aus diesem neuen Modell konsistenter und intuitiver sind als die aus anderen Modellen, wie anhand von verschiedenen Datensätzen verifiziert wurde. Die Ergebnisse zeigen, dass konfundierende Variablen den größten Einfluss auf die Bedeutsamkeit von Varaiblen haben, die stark korreliert sind.
Abstract
(Englisch)
Machine learning models are increasingly used in various fields for high-risk decision-making processes. While these models often exhibit high predictive accuracy, their complex nature often results in a lack of interpretability, creating barriers to human understanding and raising ethical issues. In this context, confounding variables serve as a complicating factor that can further undermine the interpretability of these models and can affect interpretability techniques. These often latent factors can influence both independent and dependent variables and can affect the reliability and trustworthiness of any derived interpretations. In general, researchers frequently control for confounders but often omit interpretive analyses of these models. When interpretive studies are conducted, the impact on the interpretations remains largely unexplored and unquantified. Thus there is an investigative gap in understanding how the presence of confounding variables might influence the interpretability of the models. To narrow this gap this thesis assesses the impact of confounding variables on the interpretation of neural networks in a supervised setting by juxtaposing and analyzing ICE plots and SHAP value visualizations for neural networks. Experiments show that simple feed-forward neural networks are sensitive to hidden confounding, particularly in terms of feature importance. To compensate for these shortcomings a model based on a variational autoencoder is introduced which provides evidence that the interpretations from this new model are more consistent and intuitive compared to those from other models, as verified across three different datasets. The findings indicate that confounding variables have the most impact on the importance of features that are highly correlated.
Schlagwörter
Schlagwörter
(Deutsch)
Maschinelles Lernen Interpretierbarkeit Störfaktoren Neuronale Netze
Schlagwörter
(Englisch)
Machine learning Interpretability confounding variables Neural networks
Autor*innen
Patrick Pollek
Haupttitel (Englisch)
Interpreting neural networks under latent confounding
Paralleltitel (Deutsch)
Interpretation von neuronalen Netzen im Kontext von unbekannten Störfaktoren
Publikationsjahr
2023
Umfangsangabe
viii, 119 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Sebastian Tschiatschek
Klassifikation
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC17009346
Utheses ID
69102
Studienkennzahl
UA | 066 | 645 | |