Detailansicht
Permutation feature importance for correlated variables
a simulation study
Severin Ableidinger
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Psychologie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Psychologie
Betreuer*in
Frank Scharnowski
Mitbetreuer*in
David Steyrl
DOI
10.25365/thesis.78604
URN
urn:nbn:at:at-ubw:1-24782.01243.376983-6
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
In der Psychologie sowie in anderen wissenschaftlichen Disziplinen werden vermehrt Machine Learning Methoden verwendet. Bei vielen dieser Modelle handelt es sich um “black box models”, bei welchen nicht nachvollziehbar ist, wie das Modell Vorhersagen trifft und welchen Einfluss einzelne Variablen auf das Modellverhalten haben. Dies ist relevant, um ein Modell bewerten zu können, aber auch um daraus Schlussfolgerungen ziehen zu können. Daher wurden verschiedene Methoden eingeführt, um auch bei diesen Modellen den Effekt einzelner Variablen abschätzen zu können, eine davon ist die Permutation Feature Importance (PFI). Frühere Studien zeigten allerdings, dass PFI bei korrelierten Variablen verzerrte Werte produziert. In der vorliegenden Arbeit wird mittels Simulationen das Verhalten von PFI bei unkorrelierten und korrelierten Variablen untersucht. Mittels Varianz-Kovarianz-Matrizen wurden 3 Variablen erstellt, eine Zielvariable sowie zwei Prädiktoren. Die Kovarianzen der drei Variablen wurden systematisch variiert. Bei unkorrelierten Prädiktoren gab PFI eine unverzerrte Einschätzung der Korrelationen zwischen den Prädiktoren und der Zielvariable. Auch bei korrelierten Prädiktoren konnte der PFI-Wert gut vorhergesagt werden, wenn die Prädiktoren gleichermaßen mit der Zielvariable korrelierten. Sogar wenn ein Modell nicht die zugrunde liegende Datenstruktur erfasste, konnte PFI die Korrelation abschätzen. In anderen Fällen waren die resultierenden PFI-Werte allerdings verzerrt und die zugrundeliegende Korrelation wurde unter- oder überschätzt. In diesen Fällen konnte kein systematischer Zusammenhang zwischen der Korrelation zwischen den Prädiktoren und dem Bias gefunden werden. Die Ergebnisse zeigen, dass PFI für die Verwendung bei korrelierten unabhängigen Variablen nicht geeignet ist.
Abstract
(Englisch)
There has been an increased use of Machine Learning (ML) practices in social science as well as other research domains. Many of the now used ML-models, however, are so called “black box models”. For these, it is unclear how the model makes predictions, and it is difficult to single out the effect of any single variable, which would be important for model assessment and research. Various methods have been thought up to estimate the effect of single variables in black box models, one of which is permutation feature importance (PFI). This method, however, has been criticized to be biased in correlated variables. In this simulation study, the behavior of PFI was assessed in the context of uncorrelated and correlated predictor variables. Using a variance-covariance matrix three variables were created, one of which was used as the outcome variable and two as the predictor variables. The covariances between the three variables was systematically varied. It was found that in uncorrelated predictor variables, PFI accurately captured the underlying correlation between the predictor variable and the outcome and even in cases when the predictors were correlated and have an equal correlation to the outcome, PFI scores were predictable from the underlying correlation structure. PFI might even be able to accurately assess the underlying correlation when the model fails to grasp it. But in other cases, PFI was biased in correlated predictor variables, both under- and overestimating the underlying connection. There was further no clear connection between the bias and the magnitude of the correlation, as the same underlying data structure led to different estimations of PFI scores. Overall, the results show that PFI should not be used when predictor variables are correlated.
Schlagwörter
Schlagwörter
(Deutsch)
Machine Learning Permutation Feature Importance Variable Importance Measure
Schlagwörter
(Englisch)
Machine Learning Permutation Feature Importance Variable Importance Measure
Autor*innen
Severin Ableidinger
Haupttitel (Englisch)
Permutation feature importance for correlated variables
Hauptuntertitel (Englisch)
a simulation study
Paralleltitel (Deutsch)
Permutation Feature Importance bei korrelierten Variablen
Paralleluntertitel (Deutsch)
eine Simulationsstudie
Publikationsjahr
2025
Umfangsangabe
89Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Frank Scharnowski
Klassifikation
77 Psychologie > 77.03 Methoden und Techniken der Psychologie
AC Nummer
AC17563240
Utheses ID
76018
Studienkennzahl
UA | 066 | 840 | |