Detailansicht

Testing and model selection for prediction in large sets of variables
Alexandra Graf
Art der Arbeit
Diplomarbeit
Universität
Universität Wien
Fakultät
Fakultät für Mathematik
Betreuer*in
Peter Bauer
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.4495
URN
urn:nbn:at:at-ubw:1-29725.46745.851566-8
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
In dieser Arbeit wird die Selektion von Variablen die (in Wahrheit) einen Einfluss auf einen klinischen Endpunkt (z.B. den Ausgang einer bestimmten Therapie) haben aus einer großen Menge von Kandidatenvariablen mit Hilfe von nur kleinen Stichproben von Patienten, die auf die Therapie reagieren bzw. nicht reagieren, behandelt. Die Selektion basiert auf einer multiplen Testprozedur die die False Discovery Rate (FDR) einhält. Mit jenen, mit Hilfe der multiplen Testprozedur selektierten, Variablen soll ein prognostischer Score konstruiert werden, mit dem man den klinischen Endpunkt eines zukünftigen Patienten vorhersagen kann. Dieser lineare Score wird aufgrund der resultierenden Receiver Operating Characteristic Curve (ROC) bewertet. Die Selektionsgrenze für die FDR, welche die beste Fläche unter der ROC-Kurve (AUC) liefert ist allerdings von unbekannten Parametern wie z.B. der Effektgröße oder der Anzahl der Variablen, die tatsächlich einen Einfluss auf den klinischen Endpunkt haben stark abhängig. Um in einem spezifischen Datensatz nach der optimalen Selektionsschranke zu suchen wird die Verwendung einer Prozedur zur Kreuzvalidierung vorgeschlagen. Diese Prozedur (i) ermittelt ein adäquates Selektionskriterium für die multiple Testprozedur, (ii) berechnet einen (positiv verzerrten) Schätzer für die AUC für zukünftige Prognosen und (iii) liefert einen Schätzer für die FDR, der nahe der wahren FDR ist. Darüber hinaus geben niedrige Werte der ermittelten kreuzvalidierten AUC und große Werte der kreuzvalidierten FDR einen Hinweis darauf, dass der Einfluss der Variablen auf den klinischen Endpunkt zu gering ist und/oder dass die gegebene Stichprobengröße zu gering ist um die gegebenen Effekte zu finden.
Abstract
(Englisch)
Multiple testing has been applied for selecting prognostic variables related with a clinical outcome (response to therapy) from a large number of candidates in small samples of "responding" or "non-responding" patients which are then used to estimate a score for prediction in future patients. We evaluated selection based on control of the false discovery rate (FDR) to build a linear score by considering the resulting receiver operating characteristic (ROC) for independent prediction of future patients. We simulated different scenarios with varying number of tested candidates, proportion of prognostic variables and sample sizes. Underlying effect sizes were determined such that optimal prediction, if known, would lead to a ROC-curve crossing through a benchmark point with pre-fixed values of sensitivity and specificity. We show that the "best" FDR-threshold which provides the ROC-curve with the largest area under the curve (AUC) varies largely over the different parameter constellation not known in advance. Hence, cross validation is proposed to determine the optimal selection threshold in a specific sample. This procedure (i) allows to choose an appropriate selection criterion, (ii) results in an estimate of the AUC for future prediction (though positively biased) and (iii) provides an estimate of the FDR close to the true FDR. Moreover, low estimates of the cross validated AUC and large estimates of the cross validated FDR may indicate a lack of sufficiently prognostic variables and/or too small sample sizes.

Schlagwörter

Schlagwörter
(Englisch)
variable selection false discovery rate receiver operating characteristic curve cross validation
Schlagwörter
(Deutsch)
Variablenselektion False Discovery Rate Receiver Operating Characteristic Curve Kreuzvalidierung
Autor*innen
Alexandra Graf
Haupttitel (Englisch)
Testing and model selection for prediction in large sets of variables
Paralleltitel (Deutsch)
Testen und Modellselektion für Prognosescores in Datensätzen mit einer großen Variablenzahl
Publikationsjahr
2008
Umfangsangabe
VII, 133 S. : graph. Darst.
Sprache
Englisch
Beurteiler*in
Peter Bauer
Klassifikation
44 Medizin > 44.32 Medizinische Mathematik, medizinische Statistik
AC Nummer
AC07607477
Utheses ID
3992
Studienkennzahl
UA | 405 | | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1