Detailansicht

Survival prediction with microarray data
Peter Wohlmuth
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Wirtschaftswissenschaften
Betreuer*in
Martina Mittlböck
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.29783
URN
urn:nbn:at:at-ubw:1-30481.87857.365365-7
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Diese Arbeit ist der Überlebensvorhersage aus Genexpressionsdaten gewidmet. Es werden unterschiedliche Ansätze zur Modellselektion, Tuningstrategien und der Einfluss einzelner Gene auf das Überleben untersucht. Des Weiteren wird die Vorhersagegüte von Überlebensmodellen für eine gemischte Patienten-Population geprüft, die teils anfällig für Rezidive ist und teils geheilt ist. Diese Arbeit besteht aus zwei Teilen. Im ersten Teil werden die zehn bekanntesten Ansätze zur Modellierung hochdimensionaler Daten vorgestellt. Diese kann man in Parameter Shrinkage-, Best- Subset-, Ensemblemethoden und Ansätze basierend auf achsentransformierten Variablenräumen einteilen. Unterschiede und Gemeinsamkeiten zwischen den Modellansätzen werden unter verschiedenen Gesichtspunkten diskutiert wie beispielsweise der Frage, ob die erklärte Variable in die Modellselektion einbezogen wird, ob Wechselwirkungen zwischen den Variablen berücksichtigt werden und ob Einzel- oder aggregierte Gene selektiert werden. Die Stärken und Schwächen der verschiedenen Techniken werden beschrieben. Die sekundäre Fragestellung dieser Arbeit betrifft die Tuningstrategie, die einen starken Einfluss auf die Vorhersagegüte eines Überlebensmodells aus Microarraydaten hat. Sie umfasst viele Einzelaspekte wie die Resampling-Technik und die Wahl des Tuning-Parameters und eines Maßes zur Bestimmung der vorhersageoptimierten Modellgröße (Tuningkriterium). Diese Arbeit befasst sich mit der Anzahl der Validierungsstichproben und mit dem Tuningkriterium. Es wird die Vorhersagequalität der Überlebensmodelle, die mit 5-, 10- und 20-facher Kreuzvalidierung bestimmt werden, verglichen. Da 5- und 10-fache Kreuzvalidierung eine übliche Wahl für die Abstimmung von Modellen mit Microarraydaten ist und eine niedrigere Anzahl von Kreuzvalidierungs-Stichproben (beispielsweise eine Leaving-One-Out Kreuzvalidierung) zu einem höheren Stichprobenbias und zu einer niedrigeren Vorhersagequalität führt, untersucht diese Arbeit zusätzlich den Einfluss der 20-fachen Kreuzvalidierung auf die Güte der Lebensdauermodelle. Das zweite Thema, das im Rahmen dieser Arbeit behandelt wird, ist der Einfluss des Tuningkriteriums auf die Präzision der Modelle. Es werden Überlebensmodelle verglichen, die durch das Cross-Validation Partial Log-Likelihood Kriterium und den integrierten Brier Score selektiert wurden. Die Vor- und Nachteile der Tuningkriterien, wie beispielsweise Anwendungsbereiche für die Maße, werden beschrieben und die Güte der Modelle wird untersucht. Die experimentelle Fragestellung dieser Arbeit betrifft den Einfluss einzelner Gene auf das Überleben. Heuristische Algorithmen werden verwendet, um die Effekte der Gene auf die Lebensdauer zu bestimmen. In dieser Arbeit wird geprüft, ob einflussreiche Gene existieren bzw. welche Modellierungsansätze signifikante Gene entdecken können. Modellierungstechniken, Tuningstrategien und die Untersuchung von Effekten einzelner Gene auf das Überleben werden auf eine homogene Population von nicht geheilten Patienten angewendet. Der zweite Teil dieser Arbeit befasst sich mit dem Vergleich von Lebensdauermodellen, die auf einer gemischten Population von rückfälligen und geheilten Patienten entwickelt werden. Die Klasse der semiparametrischen Cure-Modelle, insbesondere die Cox und AFT Misch-Cure-Modelle, die aus einem Latenz- und Inzidenzteil bestehen, wird beschrieben. Ein neuer Modellierungsansatz wird vorgestellt, der die zwei Modellteile der Cure-Modelle berücksichtigt, indem Gene mit einem Einfluss auf das Überleben und auf Heilung separat bestimmt werden und das Cure-Modell aus den Einzeleffekten entwickelt wird. Die Vor- und Nachteile der Anwendung von Cure-Modellen auf Curedaten im Vergleich mit dem Standard Coxmodell werden in dieser Arbeit gezeigt. Die Vorhersagegüte der Cox und AFT Misch-Modelle und des Standard Coxmodells sowie der Einfluss von Genen auf Überleben und den Cure werden beschrieben. Weitere Themen dieser Arbeit sind Survial-Vorhersage Prozeduren, die Modelltuning und Modellentwicklung beinhalten, Maße zur Vorhersagequalität der Überlebensmodelle und Prozesse, um Genexpressionsdaten aus Gewebeproben zu gewinnen. Die Ziele dieser Arbeit werden in primären, sekundären und explorativen Hypothesen zusammengefasst. Die Forschungsfragen werden auf Basis von vier Tumordatensätzen und vier generierten Datensätzen geprüft, wobei die generierten Daten hochsignifikante Variablen enthalten. Zum Abschluss werden geeignete Modellierungsstrategien für hochdimensionale Lebensdauermodelle empfohlen und zukünftige Forschungsthemen vorgestellt.
Abstract
(Englisch)
This thesis is dedicated to survival prediction from gene expression data. The key topics of the text are the assessment of model approaches and tuning strategies for model fitting as well as the prediction performance of survival models for populations of mixed frail and immune patients. A further issue is the impact of single genes on the prediction models. This work is divided in two parts. In the first section the ten most popular approaches for model fitting based on high-dimensional data are introduced. These can be classified into parameter shrinkage, subset selection, ensemble methods and techniques based on derived input directions. Differences and similarities between the model approaches are discussed from various theoretical perspectives e.g. if model selection is related to the outcome variable, if interdependences between features are considered or if single or aggregated genes are selected. The strengths and weaknesses of the techniques are discussed and systematically evaluated. The secondary topics of this work are tuning strategies, which significantly affect the prediction performance of survival models from microarray data. These consist of many components like the resampling technique, the choice of the tuning parameter and the tuning criterion in order to select the complexity of the survival models. This work examines resampling techniques and tuning criteria. A comparison between the prediction performances of survival models validated by 5-, 10- and 20-fold cross-validation is made in this thesis. 5- and 10-fold cross-validation is a commonly used resampling technique for model fitting. A lower number of cross-validation samples (e.g. leaving-one-out cross-validation) leads to a higher sample bias and lower performance. This work examines the impact of 20-fold cross-validation on the prediction performance of survival models. This work investigates the influence of the tuning criterion regarding the accuracy of the prediction model. Survival models tuned by the cross-validation partial log-likelihood criterion are compared to models validated by the integrated Brier score. The assets and deficiencies of the tuning criteria, e.g. the areas of application, are discussed and the prediction performances of the models are examined. The impact of single genes on survival is an experimental research question of this work. Heuristic algorithms are used to identify significant features selected by the model approaches. Genes related to survival are compared between the model approaches. The model techniques, tuning strategies and survival effects are compared regarding a population of frail patients. The second part of this work refers to the comparison of survival models applied to a population of mixed susceptible and insusceptible patients. The class of semiparametric mixture cure models is introduced. The Cox and AFT mixture cure model including a latency and an incidence model part are described. A new survival prediction procedure is presented that takes both components of the survival models into account. Genes related to survival and cure are selected separately. The mixture cure models are fitted by procedures that are based on single effects on latency and incidence. Benefits and deficiencies of mixture models and the standard Cox proportional hazards model are presented in this work. The prediction accuracy of the pure Cox model, the mixture cure model and the AFT mixture cure model are compared. The impact of genes on survival and cure are discussed in the text. Further issues of this thesis are survival prediction procedures to tune and fit the survival models, criteria to measure the prediction performance of survival models and steps to acquire gene expression data from tissue samples. The main objectives of this work are summarized in primary, secondary and exploratory hypotheses. The research questions are examined using four cancer and four generated datasets. The simulated data contain high-signal variables. Some recommendations are addressed for the selection of the model fitting technique and the tuning strategy. Further research fields are outlined.

Schlagwörter

Schlagwörter
(Englisch)
Survival Prediction Microarray Data Cure Models
Schlagwörter
(Deutsch)
Lebensdaueranalyse Genexpressionsdaten
Autor*innen
Peter Wohlmuth
Haupttitel (Englisch)
Survival prediction with microarray data
Paralleltitel (Deutsch)
Survival Prädiktion mit Microarray Daten
Publikationsjahr
2013
Umfangsangabe
226 S. : graph. Darst.
Sprache
Englisch
Beurteiler*innen
Martina Mittlböck ,
Andreas Futschik
Klassifikation
31 Mathematik > 31.73 Mathematische Statistik
AC Nummer
AC11167699
Utheses ID
26554
Studienkennzahl
UA | 084 | 136 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1