Detailansicht

Statistical challenges in modern genetics
Muhammad Faisal
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Sozialwissenschaften
Betreuer*in
Andreas Futschik
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.18271
URN
urn:nbn:at:at-ubw:1-30018.20352.304263-2
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
In den letzten zehn Jahren wurden bemerkenswerte Fortschritte in der Biologie gemacht. Biologen, die natürliche Populationen von Pflanzen oder Tieren studieren, haben Zugriff auf neue Technologien wie das Next Generation Sequencing. Häufig müssen rechenintensive statistische Verfahren für die Analyse von komplexen biologischen Daten entwickelt werden. Der Fortschritt in der Computertechnik erlaubt es, rechenintensive statistische Analysen auf Desktop-Computern auszuführen. Dies führte zu einem signifikanten Fortschritt bei der Entwicklung statistischer Verfahren in der Genetik, wie etwa die Verwendung von Monte Carlo und Markov Chain Monte Carlo (MCMC) Methoden zur Berechnung der Likelihoods und a-posteriori Wahrscheinlichkeiten. Diese Dissertation konzentriert sich auf die Entwicklung von Likelihood-Methoden und Likelihood-freier statistischen Verfahren und deren Anwendung auf die Analyse von genetischen Daten. Zunächst schlagen wir eine effiziente Methode zur Berechnung der Likelihood vor, die für die Schätzung von zeitabhängigen Mutationsraten im Infinite-Sites Mutationsmodell verwendet werden können. Im Rahmen der Likelihood-freien Methoden schlagen wir eine Methode zur Auswahl von Statistiken vor, die dann im Rahmen des „Approximate Bayesian Computation“ (ABC)-Algorithmus verwendet werden. Ziel ist es, die summary Statistiken so zu wählen, dass die tatsächliche a posteriori Verteilung möglichst gut approximiert wird. Das vorgeschlagene Verfahren, basierend auf der „least angle regression“ (LAR), ist besser in Bezug auf Rechenzeit und Genauigkeit als vergleichbare Methoden in der Literatur. Wir schlagen auch Methoden, um den Akzeptanz-Cutoff für ABC zu bestimmen vor und vergleichen diese.
Abstract
(Englisch)
In the past decade, remarkable advances have been made in the field of biology. Nowadays, biologists who study natural populations of plants and animals, have access to numerous new tools such as whole genome sequencing, DNA hybridization microarrays, and next-generation sequencing. Computationally intensive statistical methods have to be developed often for the analysis of complicated biological data. Of course, the advancement in the field of computing has been equally significant, and today's computers are fast enough to allow numerically intensive analysis to be run on desktop machines. This has led to a substantial progress in developing statistical methods for genetics; in particular, Markov chain Monte Carlo (MCMC) and Approximate Bayesian Computation (ABC) methods for computing likelihoods and posterior probabilities. The main objective of this study is to deal with statistical challenges in modern genetics. Both likelihood and likelihood-free methods are needed for the analysis of genetic data in the context of questions of interest to biologists. In this thesis, we contribute to both approaches. We propose a novel method for the estimation of time dependent scaled mutation rates under the infinite sites model when recombination is not present. The proposed method can also estimate time-independent mutation rates, and it performs well compared to other methods in the literature. Second, we investigate a method for choosing summary statistics to be used with the ABC algorithm. Our approach performs better in terms of computational time and accuracy than other methods given in the literature. Moreover, four new algorithms have been proposed for choosing the acceptance cutoff in ABC framework.

Schlagwörter

Schlagwörter
(Englisch)
Approximate Bayesian Computation Population Genetics Exact Likelihood Inference Mutation Recombination Population Demography
Schlagwörter
(Deutsch)
Approximate Bayesian Computation Population Genetics Exact Likelihood Inference Mutation Recombination Population Demography
Autor*innen
Muhammad Faisal
Haupttitel (Englisch)
Statistical challenges in modern genetics
Paralleltitel (Deutsch)
Statistische Probleme in der modernen Genetik
Publikationsjahr
2012
Umfangsangabe
XV, 121 S. : graph. Darst.
Sprache
Englisch
Beurteiler*innen
Andreas Futschik ,
Martina Mittlböck
Klassifikation
42 Biologie > 42.21 Evolution
AC Nummer
AC09027363
Utheses ID
16368
Studienkennzahl
UA | 084 | 136 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1