Detailansicht

Distinguishing cause and effect by analysis and experimental evaluation of the heteroscedastic noise causal method CLS-MML
Suzana Marsela
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Informatik
Betreuer*in
Katerina Schindlerova
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.77627
URN
urn:nbn:at:at-ubw:1-27855.17389.603880-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Wir betrachten die Herausforderung der Kausalinferenz in einem bivariaten Szenario unter Verwendung rein beobachtender Daten. Ein zentraler Bestandteil dieser Arbeit ist die Nutzung der Datenwerte zweier Variablen, um zu bestimmen, welche von beiden die Ursache und welche die Wirkung ist. Kausale Zusammenhänge zu erschließen – wie etwa zu bestimmen, ob ein bestimmter Lebensstilfaktor (wie Sport) zu verbesserter Gesundheit führt oder ob Gesundheit die Lebensstilentscheidungen beeinflusst – ist eine ehrgeizige, aber wichtige Aufgabe in vielen Bereichen wie Medizin, Wirtschaft, Landwirtschaft und anderen. Diese Arbeit untersucht den Einsatz bivariater kausaler Methoden, die auf einem informations-theoretischen Ansatz basieren, um die kausale Richtung zwischen zwei Variablen zu bestimmen. Wir adressieren das Inferenzproblem durch die Verwendung eines SCM, um die Ursache-Wirkungs-Beziehung zwischen Variablen darzustellen. Dadurch kann die kausale Richtung nach der Schätzung des Modells in beiden Richtungen identifiziert werden. Konkret verwenden wir ein LSNM, um die Wirkungsvariable zu modellieren, wobei sowohl der Mittelwert als auch die Varianz des Störterms von der Ursache abhängen. Um dieses Modell zu schätzen, führen wir eine neuartige Methode ein, bei der die Ursachvariable einer Student-t-Verteilung folgt. Zur Kausalitätsinferenz nutzen wir KC, insbesondere dessen Näherung durch das MML-Prinzip. MML wird verwendet, um das Modell zu finden, das die Gesamtlänge der Nachricht, die erforderlich ist, um sowohl das Modell als auch die Daten in beiden kausalen Richtungen zu beschreiben, minimiert. Die kürzere Beschreibung wird als Ursache identifiziert. Daraus schließen wir, dass X die Ursache von Y ist, falls die MML-Beschreibung kürzer ist, um Y als Funktion von X zu beschreiben, als in der umgekehrten Richtung. Die in dieser Arbeit untersuchte CLS-MML-Methode integriert all diese Konzepte, um effektiv zwischen Ursache und Wirkung von Variablen zu unterscheiden. Um die Effektivität der CLS-MML-Methode zu veranschaulichen, haben wir sie an 13 Benchmark-Datensätzen getestet, einschließlich eines realen Datensatzes namens Tübingen Kausalpaar-Datensatz, der Daten von 99 verschiedenen Ursache-Wirkungspaaren enthält. Wichtig ist, dass in dieser Datenbasis die wahren kausalen Richtungen aller Paare vollständig bekannt sind, was uns ermöglicht, unseren Ansatz zu validieren und unsere Entscheidungen zu motivieren. Unsere empirischen Auswertungen zeigten, dass unsere Methode bei einigen synthetischen Datensätzen bessere Präzisionsergebnisse erzielt und eine Genauigkeit von bis zu 70% auf dem realen Tübingen-Datensatz erreicht. Während wir verschiedene Optimierungsstrategien zur Maximierung der Genauigkeit unseres Modells untersuchten, beobachteten wir, dass das SNR der Datensatzverteilung eine entscheidende Rolle spielte. Darüber hinaus beeinflusste die Wahl der Hyperparameter der Student-t-Verteilung – sowohl der initial gewählten als auch der vom Algorithmus optimierten – die Leistung des Modells erheblich. Trotz der Einfachheit des Modells schneidet unser Algorithmus im Vergleich zu 8 verschiedenen Methoden bei einigen synthetischen Datensätzen allgemein gut ab und zeigt gute Ergebnisse bei den Tübingen-Datensätzen. Hier ist er konkurrenzfähig mit den modernsten Methoden und erreicht eine Genauigkeit von bis zu 70%.
Abstract
(Englisch)
We consider the challenge of causal inference in a bivariate setting using only observational data. A key component of this thesis is using the data values of two variables to infer which one is the cause and which is the effect. Inferring causal relationships, such as determining whether a particular lifestyle factor (like exercise) causes improved health or whether health influence lifestyle choices, is an ambitious but important task in many fields, like medicine, economics, agriculture and more. This thesis explores the utilization of bivariate causal methods based on an information-theoretic approach to decide causal direction between two variables. We address the inference problem by using a Structural Causal Model (SCM) to represent the cause-and-effect relationship between variables, which allows the identification of the causal direction after estimating the model in both directions. Specifically, we employ a Location Scale Noise Model (LSNM) to model the effect variable where both the mean and variance of the noise term depend on the cause. To estimate this model we introduce a novel method where the cause variable follows Student’s t-distribution. To infer the causality we utilize Kolmogorov Complexity (KC), particularly its approximation through Minimum Message Length (MML)principle.MML is used to find the model that minimizes the total length of the message needed to describe both the model and the data in both causal directions, choosing the one with the shorter length to be the cause. Therefore, we infer X causes Y in case the MML description is shorter to describe Y as a function of X than the inverse direction. The Causal Location Scale Minimum Message Length (CLS-MML) method, investigated in this work, integrates all these concepts to effectively distinguish between cause and effect among variables. To illustrate the effectiveness of the CLS-MML method we tested against 13 benchmark datasets, including a real-world data called Tübingen causal pairs, which contain data from 99 distinct cause-effect pairs. Importantly, in this data basis, we have full access to the ground truth causal directions for all pairs, allowing us to validate our approach and motivate our choices. Our empirical evaluations demonstrated that our method achieves better precision results for some of the synthetic dataset and up to 70% accuracy on real dataset of Tübingen causal pairs. While exploring different optimization strategies to achieve maximum accuracy for our model, we observed that the Signal-to-Noise Ratio (SNR) of the dataset distribution played a crucial role. Additionally, the choice of hyper parameters for the Student’s t-distribution, both those chosen initially and those optimized by the algorithm, significantly influenced the model’s performance. Despite the simplicity of the model, our algorithm generally performs well on some synthetic datasets compared to Eight different methods and shows good results on Tübingen datasets, where it is competitive with state-of-the-art methods, achieving up to 70% accuracy.

Schlagwörter

Schlagwörter
(Deutsch)
Bivariaten Kausalitätsmodell Kolmogorov-Komplexität
Schlagwörter
(Englisch)
Bivariate Causality Kolmogorov Complexity
Autor*innen
Suzana Marsela
Haupttitel (Englisch)
Distinguishing cause and effect by analysis and experimental evaluation of the heteroscedastic noise causal method CLS-MML
Publikationsjahr
2025
Umfangsangabe
xv, 65 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Katerina Schindlerova
Klassifikation
54 Informatik > 54.00 Informatik. Allgemeines
AC Nummer
AC17422437
Utheses ID
74446
Studienkennzahl
UA | 066 | 921 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1