Detailansicht

A comparison of Bayesian model selection methods for the analysis of genome wide association studies
Michael Hagmann
Art der Arbeit
Magisterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Wirtschaftswissenschaften
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Magisterstudium Statistik
Betreuer*in
Florian Frommlet
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.44373
URN
urn:nbn:at:at-ubw:1-13741.89911.525666-0
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Selbst heutzutage sind Single-Marker Tests nach wie vor die gängigste Analysestrate- gie zur Auswertung Genomweiter Assoziationsstudien (GWAS). Elementare statistische Argumente führen jedoch zu dem Urteil, dass diese Auswertestrategie hochgradig in- effektiv ist um kausale Marker aufzuspüren. Dies gilt im Besonderen dann, wenn der zugrundeliegende Phänotyp durch eine Vielzahl genetischer Marker bestimmt wird. Ein Weg die Effektivität der Auswertung zu steigern ist, das zugrundeliegende Problem als Modelselektion aufzufassen. Somit rückt also die Suche nach dem (im Sinne eines Kriteri- ums) besten Regressionsmodell zur Erklärung des zugrundeliegenden Phänotyps in den Fokus. Dabei werden die einzelnen Marker nicht mehr für sich getrennt, sondern gebün- delt betrachtet, man spricht daher von einem Multi-Marker Ansatz. Zu diesem Zweck stelle ich das Selektionskriterium mBIC2 vor. Bei diesem Kriterium handelt es sich um eine theoretisch wohlfundierte Anpassung des Bayesian Information Critera (BIC) für hochdimensionale statistische Daten mit herausragenden asymptotischen Eigenschaften. Eine nicht zu übersehende Schwierigkeit bei der Modellselektion in hochdimensionalen Daten ist die überwältigende Anzahl der möglichen Modelle. Deren Anzahl ist so groß, dass die vollständige Enumeration selbst mit zeitgenössischen Rechnern nicht möglich ist. Es bleibt daher keine andere Option als dieses Optimierungsproblem heuristisch zu lösen. In der vorliegenden Arbeit stelle ich zwei Heuristiken vor die es erlauben mBIC2 basierte Modellselektion in GWAS durchzuführen. Bei der einen Suchstrategie handelt es sich um eine bereits erprobte Variante eines Greedy-Algorithmus, die zweite beschreibt eine grundlegend neuartige Variante eines Memetischen-Algorithmus. Zur Evaluation der Performanz mBIC2 basierter Selektion – mit einem Fokus auf den memetischen Algorithmus – führte ich eine Simulationsstudie und die Reanalyse eine bereits veröffentlichten GWAS durch. In beiden Fällen wurden die Ergebnisse der Heuristiken untereinander und mit alternativen Auswertungsmethoden verglichen. Die betrachteten Alternativen waren Bonferroni bzw. Benjamini-Hochberg adjustierte Single-Marker Tests und eine Bayesianisches Variablen Selektionsmodell (implementiert in PiMass). Zusammengefasst zeigte sich eine deutliche Überlegenheit der mBIC2 basierten Selek- tion. Unabhängig von der Optimierungsheuristik zeigten diese eine mit Abstand höhere Power, eine niedrigere FDR sowie eine deutlich niedrigere Anzahl an falsch klassifizierten Markern.
Abstract
(Englisch)
Even nowadays multiple comparison adjusted single marker tests are the most commonly applied strategy to analyze genome wide association studies (GWAS). Elementary sta- tistical considerations demonstrate that this strategy is highly suboptimal in terms of power to detect causative regions on the genome. Especially if the phenotype of interest is a complex trait. A potentially more powerful strategy is the application of model selec- tion for multi marker regression models. I discuss a model selection criterion (mBIC2) which is an adaption of the Bayesian Information Criterion (BIC) to high dimensional statistics. This modification is based on sound statistical theory, and guarantees that model selection based on mBIC2 is asymptotically a Bayes optimal classifier for a wide range of relevant sparse asymptotic regimes. A prevailing difficulty for model selection in the context of high dimensional datasets is the tremendous size of the potential model universe. In fact this number is so big that enumeration is not a feasible option any- more. In order to find the optimal model search heuristics must be applied. I present two methods for mBIC2 based model selection which are currently implemented in the MOSGWA software package. One is a version of a greedy algorithm called fast stepwise selection and the other one is a novel memetic algorithm. Based on these search strate- gies I compare the performance of mBIC2 based model selection with a Bayesian variable selection model (implemented in PiMass) and typical single marker test strategies in a simulation study and a reanalyzed real data example. The findings of these experiments demonstrated an overall much better performance of mBIC2 based model selection compared to PiMass and single marker tests. mBIC2 based selection succeeds in all relevant performance measures. It detects more causal regions, has a tighter FDR control, a much lower average number of misclassified signals and shows a very desirable selection pattern for all search strategies.

Schlagwörter

Schlagwörter
(Englisch)
genome wide association studies GWAS model selection Bayesian Statistics
Schlagwörter
(Deutsch)
genomweite Assoziationsstudien GWAS Modellselektion Bayesianische Statistik
Autor*innen
Michael Hagmann
Haupttitel (Englisch)
A comparison of Bayesian model selection methods for the analysis of genome wide association studies
Paralleltitel (Deutsch)
Ein Vergleich verschiedener bayesianischer Modellselektionsmethoden zur Auswertung genomweiter Assoziationsstudien
Publikationsjahr
2016
Umfangsangabe
vii, 74 Seiten
Sprache
Englisch
Beurteiler*in
Florian Frommlet
Klassifikationen
31 Mathematik > 31.73 Mathematische Statistik ,
42 Biologie > 42.20 Genetik
AC Nummer
AC13392966
Utheses ID
39274
Studienkennzahl
UA | 066 | 951 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1