Detailansicht
Beyond linear regression: unleashing the predictive power of merging linear models with tree-based machine learning
Marie-Louise Leopold
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Psychologie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Psychologie
Betreuer*in
Frank Scharnowski
Mitbetreuer*in
David Steyrl
DOI
10.25365/thesis.74279
URN
urn:nbn:at:at-ubw:1-28811.73014.598980-6
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Diese Arbeit untersucht das Potential der Kombination von tree-based Machine-Learning Methoden mit linearen Modellen in psychologischer Forschung. Gängige statistische Modelle wie die lineare Regression können die komplexen Zusammenhänge psychologischer Daten nicht ausreichend darstellen. Im Gegensatz dazu können Random Forests zwar nichtlineare komplexe Zusammenhänge modellieren, jedoch nicht außerhalb des Trainingsbereichs extrapolieren oder lineare Beziehungen effizient abbilden. Linear Trees und Linear Forests kombinieren die Stärken beider Ansätze, indem lineare Modelle in Decision Trees und Random Forests integriert werden. Vier Methoden – Decision Tree, Linear Tree, Random Forest und Linear Forest – sagen unabhängig voneinander die Beziehungszufriedenheit von Proband*innen des selben Datensets vorher. Die Beurteilung erfolgt anhand des Bestimmtheitsmaßes, welches aus einer verschachtelten Kreuzvalidierung berechnet wird. Die Kreuzvalidierung dient neben dem Trainieren und Evaluieren der Methoden auch dem Anpassen der Hyperparameter. Zum Vergleich der Leistung werden klassische T-Tests und Welch-Tests mit Nadeau-Bengio Korrektur herangezogen. Zudem wird der Einfluss der Hyperparameter visuell dargestellt. Die Ergebnisse zeigen, dass die Integration von linearen Modellen zu einer signifikanten Verbesserung der Vorhersagekraft und zu Stabilität bezüglich der Hyperparameter und Train-Tests-Aufteilungen führt. Der Linear Forest übertrifft die anderen Methoden hinsichtlich Genauigkeit und Stabilität unter den vier Methoden. Dabei übersteigt die Berechnungseffizienz des Linear Forest die des Random Forest. Diese Analyse verdeutlich das Potenzial der Integration von linearen Modellen in tree-based Machine-Learning Methoden zur Weiterentwicklung des Methodenfundus der psychologischen Forschung.
Abstract
(Englisch)
This thesis explores the benefits of combining tree-based machine learning methods with linear models in psychological research. Commonly used models, such as linear regression, fail to capture the potentially complex relationships in psychological data. In contrast, random forests, a supervised machine learning technique, used on a metric target variable makes a mean prediction based on a subsample, called a leaf node, based on similarities in the predictor variable space. By learning patterns from the training data and consequently assigning samples to a leaf node, the random forest can model nonlinear, complex associations. Because of the mean prediction mechanism, it cannot model linear relationships or extrapolate to data outside the training range as it cannot follow linear trends beyond the simple mean predictor. This work analysis the benefits of combining both approaches by using linear models at the leaf nodes of decision trees and their subsequent use in random forests. Four estimators – decision tree, linear tree, random forest, and linear forest – are compared on a psychological data set predicting relationship satisfaction. Coefficients of determination obtained from cross-validation measure their performances. In addition to training and testing the models, nested cross-validation serves to tune the hyperparameters of each estimator within each main cross-validation loop. Comparative analyses include Student’s T-test, Welch’s test with Nadeau-Bengio correction, and visual exploration of the hyperparameter space. The results show that estimators enhanced with linear models significantly outperform those without (∝ = .05) and exhibit superior stability across hyperparameter values and train-test splits. The linear forest shows the highest performance and stability. Notably, the linear forest also exhibits improved computational efficiency compared to the random forest. This analysis highlights the potential of integrating tree-based machine learning with linear models to advance research methodologies also in psychology.
Schlagwörter
Schlagwörter
(Deutsch)
maschinelles Lernen Random Forests lineare Modelle Methoden der Psychologie
Schlagwörter
(Englisch)
machine-learning random forests linear models methods of psychology
Autor*innen
Marie-Louise Leopold
Haupttitel (Englisch)
Beyond linear regression: unleashing the predictive power of merging linear models with tree-based machine learning
Paralleltitel (Deutsch)
Jenseits der linearen Regression: Entfesselung der Vorhersagekraft durch die Verbindung von linearen Modellen mit baumbasiertem maschinellem Lernen
Publikationsjahr
2023
Umfangsangabe
99 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Frank Scharnowski
Klassifikation
77 Psychologie > 77.03 Methoden und Techniken der Psychologie
AC Nummer
AC16945526
Utheses ID
68173
Studienkennzahl
UA | 066 | 840 | |
