Detailansicht

Performance benchmarking of methods for detecting genetic introgression from unsampled lineages
Josef Anna Leopold Hackl
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Lebenswissenschaften
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Genetik und Entwicklungsbiologie
Betreuer*in
Martin Kuhlwilm
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.76980
URN
urn:nbn:at:at-ubw:1-30738.51451.913378-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Admixture und Introgression, der Austausch genetischen Materials zwischen verschiedenen Spezies, ist ein Phänomen, das in der Geschichte der Evolution, einschließlich der Entwicklung von Homo sapiens, eine bedeutsame Rolle spielt. Von besonderem Interesse ist „ghost introgression“, womit solche Fälle, bei denen die Quelle des genetischen Materials unbekannt ist, bezeichnet werden. Dies kann insbesondere bei Arten vorkommen, für die nur wenige Daten vorliegen oder die ausgestorben sind, ohne ausreichend fossile Evidenz zu hinterlassen. In dieser Arbeit werden informatische Methoden zur Erkennung introgredierter Fragmente, insbesondere eben der "ghost regression", evaluiert. Die eingesetzten Tools nutzen unterschiedliche statistische und informatische Methoden, so werden Methoden des maschinellen Lernens wie logistische Regression oder neuronale Netzwerke angewendet. Ein zentraler Teil ist die Implementierung einer Pipeline zum systematischen Vergleich der Leistung verschiedener Tools anhand von Daten, die unter verschiedenen demografischen Modellen mit unterschiedlichen Merkmalen simuliert wurden, z. B. Genfluss vom Neandertaler zum modernen Menschen oder von einer ausgestorbenen Population zum Bonobo. Darüber hinaus wurden zwei Tools, die auf logistischer Regression und auf einer Deep Learning (DL)-Architektur unter Verwendung von Convolutional Neural Networks (CNNs) basieren, vollständig neu implementiert, sodass sie flexibler auf Daten verschiedener demografischer Modelle angewendet werden können. Der Funktionsumfang wurde erweitert und ihre Leistung in der Detektion von introgredierten Fragmenten mit derjenigen der anderen Tools verglichen.
Abstract
(Englisch)
Genetic admixture and introgression, i.e. the exchange of genetic information between different species, is a common phenomenon in the history of species, including human evolution. Of special interest is ‘ghost introgression’, i.e. gene flow events where the source population of the introgressed material is unknown. This might be common, especially for populations where data is scarce or the source lineages are extinct. In this thesis, computational methods for detecting introgressed fragments, in particular ghost introgression, are evaluated. The applied tools use different statistical and computational methods, e.g. summary statistics are computed and machine learning approaches like logistic regression or neural networks are applied. A central part was the implementation of a pipeline to compare their performance systematically on data simulated under different demographic models with distinct features, e.g. gene flow from Neanderthals to modern humans or from an extinct population into bonobos. Furthermore, two Machine Learning (ML) approaches, based on Logistic Regression and on a Deep Learning (DL) architecture using convolutional neural networks (CNNs), have been fully reimplemented so that they can be applied more flexible on data of different demographic models. Their functionality was extended and the performance in the detection of introgressed fragments compared to the other tools.

Schlagwörter

Schlagwörter
(Deutsch)
Populationsgenetik Genetische Introgression Admixture Hominidenevolution Maschinelles Lernen
Schlagwörter
(Englisch)
Population genetics Introgression Admixture Human Evolution Machine Learning
Autor*innen
Josef Anna Leopold Hackl
Haupttitel (Englisch)
Performance benchmarking of methods for detecting genetic introgression from unsampled lineages
Publikationsjahr
2024
Umfangsangabe
vi, 58 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Martin Kuhlwilm
Klassifikationen
42 Biologie > 42.20 Genetik ,
42 Biologie > 42.21 Evolution ,
54 Informatik > 54.80 Angewandte Informatik
AC Nummer
AC17361025
Utheses ID
73410
Studienkennzahl
UA | 066 | 877 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1