Detailansicht
Hierachical lasso models
Răzvan-Andrei Morariu
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Data Science
Betreuer*in
Tatyana Krivobokova
DOI
10.25365/thesis.77008
URN
urn:nbn:at:at-ubw:1-11639.67228.866419-5
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
In vielen Fachrichtungen werden Daten oft durch bestimmte Experimente gesammelt. Lasso-Modelle sind klassische Werkzeuge, die in den meisten experimentellen Wissenschaften verwendet werden, um Faktoren und Interaktionen zu identifizieren, die essentiell für die gesuchte Variable sind. Zum Beispiel kann eine chemische Reaktion unter verschiedenen Bedingungen durchgeführt werden, um Reaktionskomponenten zu identifizieren, die zum besten Ertrag führen. Diese Modelle sind in modernen Anwendungen viel komplexer geworden: (i) man interessiert sich oft für viel mehr als 2 Faktoren, (ii) es gibt normalerweise nur eine Beobachtung pro Kombination der Faktorstufen, (iii) die Antwortsvariable ist nicht unbedingt normal. Im Ergebnis sind keine der klassischen Resultate anwendbar. Diese These zielt darauf ab, die oben erwähnten Aspekte anzusprechen. In der Anwesenheit von vielen Faktoren und einzelnen Replikationen pro Faktorstufenkombination ist es vernünftig anzunehmen, dass die Mehrheit der Faktorstufenkombinationen nicht signifikant ist. Es ist verlockend, einen Lasso-Algorithmus direkt anzuwenden, um Schätzungen und Modellauswahl in einem Schritt durchzuführen. Jedoch ist der klassische Lasso-Algorithmus trotz der hierarchischen Struktur der Daten (es kann keinen Interaktionseffekt geben, wenn die Haupteffekte nicht signifikant sind) nicht anwendbar. Es wurden viele Lasso-Algorithmen für hierarchische Daten unter verschiedenen Annahmen entwickelt. Allerdings sind diese Algorithmen auf Zwei-Faktormodelle limitiert. Da mit der wachsenden Anzahl von Faktoren die Komplexität der Struktur exponentiell zunimmt, ist es eine hochgradig nicht-triviale Aufgabe, solche hierarchischen Lasso-Algorithmen auf multifaktorielle Modelle zu erweitern. Diese These versucht, einen hierarchischen Lasso-Algorithmus für drei Faktoren zu entwickeln, der für Antworten geeignet ist, die durch Verteilungen aus der Exponentialfamilie modelliert werden. Die Methode sollte auf die Daten zur Deoxyfluorierung angewendet werden, die eine nicht-normale Antwort aufweisen.
Abstract
(Englisch)
In many disciplines the data are often collected in designed experiments. Lasso models are classical tools in most experimental sciences to identify factors and their interactions that are crucial for the variable of interest. For example, one might run a chemical reaction under various conditions in order to identify reaction components that result in the best yield. In modern applications these models have become much more complex: (i) one often is interested in many more than 2 factors, (ii) there is typically only one observation per each factor level combination, (iii) the response variable is not necessarily normal. As a result, none of the classical results are applicable. This thesis aims to address these issues. In presence of many factors and single replications per factor level combination, it is reasonable to assume that most of the factor level combinations are not significant. It is tempting to apply directly a Lasso algorithm to perform estimation and model selection in one step. However, due to the hierarchical structure of the data (there can be no interaction effect, if the main effects are not significant), the classical Lasso algorithm is not applicable. There were several Lasso algorithms developed for hierarchical data under various assumptions. However, these algorithms are limited to two-factor models. Since with the growing number of factors the complexity of the structure increases exponentially, it is a highly non-trivial task to extend such hierarchical Lasso algorithms to multifactorial models. This thesis attempts to develop a hierarchical Lasso algorithm for three factors that is suitable for responses modeled by distributions from the exponential family. The method should be applied to the data on Deoxyfluorination which has a non-normal response.
Schlagwörter
Schlagwörter
(Deutsch)
Statistik Datenwissenschaft Maschinelles Lernen für die Chemie Hierarchische spärliche Modelle
Schlagwörter
(Englisch)
Statistics Data Science Machine learning for chemisty Hierarchical sparse models
Autor*innen
Răzvan-Andrei Morariu
Haupttitel (Englisch)
Hierachical lasso models
Publikationsjahr
2024
Umfangsangabe
xi, 51 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Tatyana Krivobokova
Klassifikationen
31 Mathematik > 31.73 Mathematische Statistik ,
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC17361933
Utheses ID
73433
Studienkennzahl
UA | 066 | 645 | |