Detailansicht

Addressing biological questions with massive sequence data
Sascha Strauß
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Zentrum für Molekulare Biologie
Betreuer*in
Arndt von Haeseler
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.8995
URN
urn:nbn:at:at-ubw:1-29917.34013.141663-3
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Die Erzeugung von biologischen Sequenzdaten wird zunehmend billiger und schneller. Die mehr als 63 Millionen öffentlich verfügbaren „expressed sequence tags“ (ESTs) und über 1000 vollständig sequenzierten Bakteriengenome belegen diese Entwicklung eindrucksvoll. Diese Datenmengen erlauben es nun, offen stehende Fragen bezüglich der Evolution von Arten und biologischen Systemen aufzugreifen. Das Forschungsgebiet der Tierphylogenie profitiert beispielsweise maßgeblich von der Erzeugung von ESTs in großer Stückzahl. Die Aufspaltungen innerhalb der Abstammungslinien, welche die Großgruppen der Tiere miteinander verbinden, liegen hunderte von Millionen von Jahren zurück. Ihr phylogenetisches Signal ist deswegen nur noch sehr schwach. Um eine robuste Auflösung dieser Aufspaltungen zu erlangen, muss es verstärkt werden. Dies kann nur durch die Einbindung großer Datenmengen geschehen. Darüber hinaus ermöglicht die Vielzahl von Taxa, für die heutzutage Sequenzdaten verfügbar sind, die Bestimmung der feinverästelten evolutionären Beziehungen innerhalb der großen Tiergruppen. In dieser Arbeit stellen wir die von uns implementierte Programmpipeline vor, mit der Millionen von unbearbeiteten ESTs aufbereitet werden können. Des Weiteren beschreiben wir eine Methode, um ESTs basierende Datensätze zu erzeugen, mit deren Hilfe Phylogenien rekonstruiert werden können. Wir demonstrieren die Anwendung dieser Methode anhand einer erfolgreichen Untersuchung der evolutionären Beziehungen von geflügelten Insekten. Wir präsentieren unsere Entdeckung eines systematischen Fehlers, der durch die spezifische Auswahl von Genen bei EST basierten Phylogenierekonstruktionen entsteht. Im Anschluss diskutieren wir die Auswirkungen dieses systematischen Fehlers ausführlich. Die Proteinfamilie der TonB-abhängigen Transporter (TonB dependend transporters (TBDTs)) bietet ideale Rahmenbedingungen, um die Evolution von biologischen Systemen zu erforschen. Diese Transporter, welche ausschließlich in grammnegativen Bakterien gefunden werden, ermöglichen ihren Trägern, Nährstoffe durch die Zellwand aufzunehmen. Wir durchsuchten die Genomsequenzen von rund 700 Arten nach Homologen zu bereits beschriebenen TBDTs. Dabei fanden wir ca. 4600 Kandidaten in ungefähr 350 verschiedenen Genomsequenzen. Eine anschließende Clusteranalyse enthüllte ein komplexes System von 195 Subklassen innerhalb dieser Proteinfamilie. Anhand der Einteilung in die Subklassen war es uns möglich, der Mehrheit der bis jetzt unbeschriebenen Kandidaten ein mögliches Substrat zuzuordnen. Dabei fanden wir heraus, dass die TBDTs entsprechend ihres Substrates gruppieren, und nicht nach der taxonomischen Einteilung der Arten in der sie gefunden wurden. Zuletzt präsentieren wir ein intuitives Webinterface, welches der Forschergemeinde Zugriff auf unsere Ergebnisse gewährt. Beide präsentierten Studien zeigen, dass mit den geeigneten Methoden die heutzutage verfügbare Datenmenge genutzt werden kann, um Evolution auf verschiedenen Ebenen zu rekonstruieren.
Abstract
(Englisch)
The generation of biological sequence data has witnessed a massive reduction in time consumption and costs, yielding a true data flood. More than 63 million publicly available Expressed Sequence Tags (ESTs) and over 1000 completely sequenced bacterial genomes are impressive examples of this development. This data now allows to re-address open standing questions concerning the evolution of species and of biological systems. The research field of metazoan (animal) phylogeny for example particularly benefits from the massive sequencing of ESTs. The splitting events between the main animal lineages occurred hundreds of millions of years ago, leaving only a weak phylogenetic signal. To get a robust resolution of these splits, the signal has to be amplified by incorporating lots of data. Moreover, the broad variety of taxa for which ESTs are now available allows the determination of evolutionary relationships within the main lineages on a fine scale. Here, we describe a pipeline to automatically process and manage millions of raw ESTs. We further present a method to compile customized data sets for EST-based phylogeny reconstruction, and demonstrate its application with an investigation of the evolutionary relationships of winged insects (Pterygota). Furthermore, we present our finding that common gene selection strategies for EST-based phylogeny reconstruction introduce a bias towards slowly evolving genes. We subsequently investigate the consequences of this bias for the inferred phylogenies. By contrast, the protein family of TonB dependent transporters (TBDTs) is an ideal framework to explore the evolution of biological systems. Exclusively found in gram-negative bacteria, they provide passage for several nutrients through the cell wall with high substrate specificity. By searching for homologs to known TBDTs in almost 700 species, we obtained about 4600 new candidates from ~350 taxa. A subsequent clustering analysis revealed a complex system of 195 subclasses within this family. By labeling the subclasses according to known TBDTs, we were able to suggest putative substrates for the majority of yet undescribed tentative transporters. Interestingly, TBDTs are grouped by their substrates rather than by the taxonomy of species they are found in. Finally, we present an intuitive web interface that grants access of our results to the research community. Both studies demonstrate that by mastering obstacles introduced by the sheer amount of data, nowadays available sequence data provide the opportunity to reconstruct complex evolution on different levels.

Schlagwörter

Schlagwörter
(Englisch)
evolution animal phylogeny phylogeny reconstruction TonB dependent transporters sequence data Expressed Sequence Tags
Schlagwörter
(Deutsch)
Evolution Tierphylogenie Phylogenierekonstruktion TonB-abhängige Transporter Sequenzdaten Expressed Sequence Tags
Autor*innen
Sascha Strauß
Haupttitel (Englisch)
Addressing biological questions with massive sequence data
Publikationsjahr
2009
Umfangsangabe
240 S. : Ill., graph. Darst.
Sprache
Englisch
Beurteiler*innen
Thomas Hankeln ,
Enrico Schleiff
Klassifikation
42 Biologie > 42.21 Evolution
AC Nummer
AC08076728
Utheses ID
8108
Studienkennzahl
UA | 091 | 490 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1