Detailansicht
A comparison between saturation and bootstrapping to measure phylogenetic information
Clemens Heiderer
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Bioinformatik
Betreuer*in
Arndt von Haeseler
DOI
10.25365/thesis.76598
URN
urn:nbn:at:at-ubw:1-15154.20357.799527-4
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Wir möchten einen Einblick in die Methodik des Z-Tests Satute geben. Wir beginnen mit einem kurzen historischen Überblick über die Berechnung von gesättigten bzw. saturierten Zweigen in der Phylogenie und führen dann die Substitutionsmatrix bzw. transition probability matrix ein. Wir nehmen an, dass der evolutionäre Prozess stationär und reversibel ist, und erklären, wie wir gesättigte Zweige für zwei Sequenzen identifizieren können. Für den Sättigungstest für multiple Sequenzen teilen wir unseren Baum am getesteten Zweig in zwei Sub-Bäume links und rechts vom Zweig ein, die durch den getesteten Zweig links und rechts davon per Knoten verbunden und dadurch verwurzelt werden. Ein weiterer älterer Ansatz zur Bewertung der Qualität von Zweigen erfolgt über Bootstrap und UFBoot, die ebenfalls Maximum-Likelihood als zugrunde liegende Methode zur Baumrekonstruktion verwenden. Wir beschreiben beide Methoden, wie sie sich zur Qualitätsmessung eignen, und ob sie sich miteinander vergleichen lassen. Die Veränderungen in der Baumtopologie aufgrund von Pruning gesättigter Zweige werden mithilfe der Robinson-Foulds-Distanz bewertet, um festzustellen, ob Bäume mit gesättigten Zweigen eine größere Variabilität in ihren ML-Topologien aufweisen. Wir kombinieren unsere Erkenntnisse zum UFBoot-Verhalten mit Messungen der RF-Distanzen für eine systematische Analyse anhand multipler Proben, von einem Modelbaum ausgehend. Dabei wird die Topologieänderung des wahren Baumes, sowohl zum Maximum-Likelihood Baum, als auch zum MSA Baum, der einen unabhängigen Klade simuliert, untersucht. Dies erfordert die Bedingung, dass inferierte ML-Bäume sich immer noch zwischen dem zu untersuchenden gesättigten Zweig in einem L- und R-Subklade teilen lassen. Es zeigt sich ob mittels ML-Simulationen mit IQ-TREE2 lange saturierte Zweige auch als solche identifizieren lassen. Diese Erkenntnisse werden analysiert und mit den von Satute identifizierten gesättigten Zweigen verglichen.
Abstract
(Englisch)
We would like to provide insight into the methodology of the z-test Satute. We will begin with a brief historical overview of the calculation of saturated branches and then proceed to introduce the transition probability matrix and assume the evolutionary process as stationary and reversible, with that we explain how we can identify saturated branches in two sequences. For the saturation test for multiple sequences, we divide our tree at the tested branch into 2 subclades, which are thereby rooted by the branch. We then test if there is still enough phylogenetic history in both roots of the subclades to classify the branch as informative. Another older approach to assess the quality of branches is through Bootstrap and UFBoot, which also employ Maximum Likelihood as their underlying tree inference method. We further describe the performance of results obtained from both methods and explore whether they can be compared. The changes in tree topology resulting from the pruning of saturated branches will be evaluated using the Robinson-Foulds distance to determine whether trees containing saturated branches exhibit greater variability in their ML topologies. We combine our findings on UFBoot behavior with measurements of RF distances to conduct a systematic analysis across multiple samples, examining the proximity of the true topology to both its ML- and its MSA clade topology, which simulates a fully saturated independent clade. This requires investigating whether inferred ML trees can still correctly split at a saturated branch between two clades. Both together show how ML simulations with IQ-TREE2 proceed on trees with long branches, these findings will be analyzed and compared with branches identified as saturated by Satute. Taken together, it demonstrates how Maximum Likelihood trees inferred with IQ-TREE2 proceed on trees with long branches. These findings will be analyzed and compared with branches identified as saturated by Satute.
Schlagwörter
Schlagwörter
(Deutsch)
Sättigung stochastische Matrix Bootstrap Maximum-Likelihood-Methode Robinson-Foulds-Distanz Pruning von Bäumen
Schlagwörter
(Englisch)
saturation transition probability matrix bootstrap Maximum-Likelihood Robinson-Foulds distance tree pruning
Autor*innen
Clemens Heiderer
Haupttitel (Englisch)
A comparison between saturation and bootstrapping to measure phylogenetic information
Publikationsjahr
2024
Umfangsangabe
89 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Arndt von Haeseler
Klassifikationen
42 Biologie > 42.23 Entwicklungsbiologie ,
54 Informatik > 54.00 Informatik. Allgemeines
AC Nummer
AC17311963
Utheses ID
70582
Studienkennzahl
UA | 066 | 875 | |