Detailansicht

Inference on a large number of hypotheses based on limited samples
some points to consider
Alexandra Goll
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Wirtschaftswissenschaften
Betreuer*in
Peter Bauer
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.436
URN
urn:nbn:at:at-ubw:1-30344.18499.234061-7
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Motivation: In genetischen Studien trifft man häufig auf zwei Probleme: Erstens versucht man Gene (oder Proteine) zu finden die zum Beispiel bei bestimmten Krankheiten im Vergleich zu gesunden Personen verschieden ausgeprägt sind. Andererseits versucht man aus solchen Genen (Proteinen) prognostische Scores für den klinischen Ausgang zum Beispiel einer Therapie eines Patienten zu finden. Schon in früheren Publikationen wurde gezeigt, dass Zwei-Stufen Pläne, wie das Pilot oder das Integrated Design geeignete Methoden sind um eine große Anzahl von Hypothesen zu testen, wie es in solchen Studien der Fall ist. In genetischen Studien kann es vorkommen, dass die Kosten pro Beobachtung zwischen den beiden Stufen unterschiedlich sind, wenn zum Beispiel spezielle Chips für die Untersuchung von selektierten Genen angefertigt werden müssen. In neueren Studien kommt es auch immer öfter vor, dass in der ersten Stufe ein billiges Standardverfahren und in der zweiten Stufe teureres, aber dafür genaueres Verfahren verwendet wird. Für solche Zwei-Stufen Pläne, in denen Kosten und Methoden zwischen den Stufen variieren, werden asymptotisch optimale Parameter untersucht. Es soll entweder die False Discovery Rate oder der Family Wise Error einhalten werden. Bezugnehmend auf das zweite angeführte Problem gibt es für viele medizinische Untersuchungen in diesem Gebiet nur mangelhafte Erkenntnisse über die statistischen Eigenshaften prognostischer Scores, die auf Basis von genetischen Datensätzen entwickelt werden. Solche statistische Eigenschaften, das heißt wie gut ein Score, der aufgrund eines Trainigsdatensatzes erstellt wurde, den Ausgang einer Therapie eines zukünftigen Patienten vorhersagt, werden untersucht. Es wird dabei die "area under the receiver operating characteristic" (AUC) als Kriterium verwendet. Ergebnisse: Unterscheiden sich nur die Kosten pro Beobachtung zwischen den Stufen, zahlt sich auch bei einem beachtlichen Kostenverhältnis zwischen den beiden Stufen die Anwendung von Zwei-Stufen Verfahren aus (im Sinne von höherer Power). Die Power der optimalen Pilot und Integrated Designs ist zwar ähnlich hoch, das Integrated Design ist allerdings robuster gegen Fehleinschätzungen der Parameter in der Planungsphase. Im Allgemeinen führen Zwei-Stufen Pläne, die die gleiche Methode in beiden Stufen verwenden, zu einer höheren Power (in Abhängigkeit von Kosten- und Effektgrößenverhältis), als Pläne, bei denen die Methode in der zweiten Stufe geändert wird. Letztere Pläne zahlen sich nur aus, wenn die teurere Methode aufgrund von fehlenden finanziellen Mitteln in der ersten Stufe nicht verwendet werden kann. Die Selektion von wirksamen Genen (Proteinen) und somit die Aufstellung von prognostischen Scores hängt sehr oft von den Trainigsdaten ab, bei denen die Stichprobengröße oft drastisch kleiner ist als die Anzahl der untersuchten Hypothesen, so dass die Asymptotik (Stichprobenumfang geht gegen unendlich) von Modellselektionsprozeduren nicht mehr stimmt. Diese Scores sind daher verzerrt und sehr variabel. Wenn tatsächlich mehrere effektive Marker existieren stellt es sich heraus, dass es besser ist liberalere Selektionskiterien zu verwenden und somit auch einige (oft sogar viele) ineffektive Marker in den Score mit aufzunehmen. Gilt allerdings die Globale Nullhypothese führen solche liberalen Kriterien dazu, dass Pseudo-Scores erstellt werden, die keinen prognostischen Wert haben. Das beste Selektionskriterium um einen prognostischen Score mit einer hohen AUC zu erzeugen ist allerdings von Parametern wie der Anzahl der insgesamt gestesteten Hypothesen, der Stichprobengröße oder dem Anteil der effektiven Marker abhängig. Wir testeten eine modifizierte Jackknife Methode um das optimal Selektionskriterium zu finden. Es stellt sich heraus, dass diese Methode ein geeignetes Selektionskriterium findet und zusätzlich Informationen über die Anzahl der falsch-positiven Entscheidungen liefert. Darüber hinaus bekommt man durch kleine Jackknife-AUC Werte einen Hinweis darauf, dass man sich in einem spezifischen Datensatz in der "Nähe" der globale Nullhypothese befindet oder dass die Effekte für den gegebenen Stichprobenumfang zu kein sind.
Abstract
(Englisch)
Motivation: Two problems that arise in the genomic or proteomic context are to find differentially expressed genes (proteins) among a large number of hypotheses and to find prognostic scores to predict a clinical outcome for future patients. Referring to the first problem, it has been shown, that two-stage pilot and integrated designs are powerful tools for investigating large numbers of hypotheses. In modern genetic studies often the costs per observation differ between stages, because specific experimental devices have to be produced at higher costs per measurement for the selected markers in the second stage. There is also an increasing focus on using a less accurate assay in early stages and more accurate, but more expensive ones in later stages for cost reasons. Asymptotically optimal two-stage designs controlling the Family Wise Error or False Discovery Rate are considered when costs and effect sizes per measurement differ between stages and total costs are constrained. Investigating the second mentioned problem it seems that for a lot of medical research reported in this field there has been insufficient awareness of the statistical properties of the resulting prognostic scores. We looked at the statistical properties of such scores in terms of how well they can predict the outcome of a medical therapy in future patients in terms of the area under the receiver operating characteristics (AUC). Results: For the practically relevant case that the same method is applied at both stages but designing the second stage measurements raises extra costs, two-stage designs are more powerful than the single-stage design even for large costs ratios. The power of the optimal pilot and integrated two-stage designs generally are similar, however the integrated approach is less sensitive even to severe design misspecifications in the planning phase. Depending on the cost and effect size ratios between the measurements it is generally more powerful to apply two-stage procedures using one measurement method at both stages. Switching from a low-cost standard method to a high-cost improved method may only be advisable if there is lack of resources, so that the first-stage sample size for the high-cost method would be too small. Selection and estimation are often based on samples dramatically smaller than the number of candidates so that the asymptotic of model selection procedures (sample size goes to infinity) does not apply. The estimates of the selected weights are biased and highly variable. If there are in fact effective markers among many candidates, prediction seems to be better if the selection procedures allows to include some ineffective markers in the score. If there are no effective markers at all, that means the global null hypothesis is true, then applying a liberal selection procedure tends to create pseudo scores which have no prognostic value at all. The best threshold to be used in selection of the prediction score which provides the largest AUC varies over different parameter constellations (varying number of tested markers, proportion of alternatives or sample size). We considered cross validation to determine the optimal selection criterion in a specific sample. For that purpose we used a modified jackknife procedure. This procedure allows choosing an appropriate selection criterion for constructing a prediction score and at the same time provides an estimate for the extent of false positive decisions. Moreover, this procedure by leading to low jackknife AUCs may indicate that in a particular data set we are close to the global null hypotheses or the effects are to small for the given sample size.

Schlagwörter

Schlagwörter
(Englisch)
large number of hypotheses small samples FDR two-stage designs prognostic scores ROC-curve
Schlagwörter
(Deutsch)
große Anzahl von Hypothesen kleine Stichprobengröße FDR Zwei-Stufen-Verfahren Prognostische Scores ROC-Kurve
Autor*innen
Alexandra Goll
Haupttitel (Englisch)
Inference on a large number of hypotheses based on limited samples
Hauptuntertitel (Englisch)
some points to consider
Paralleltitel (Deutsch)
Wichtige Aspekte über die Inferenz bei Experimenten mit einer großen Anzahl von Hypothesen basierend auf kleinen Stichprobengrößen
Publikationsjahr
2008
Umfangsangabe
X, 174 S.
Sprache
Englisch
Beurteiler*innen
Peter Bauer ,
Andreas Futschik
Klassifikation
44 Medizin > 44.32 Medizinische Mathematik, medizinische Statistik
AC Nummer
AC05036822
Utheses ID
319
Studienkennzahl
UA | 084 | 136 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1