Detailansicht

Computational methods to predict
RNase P RNA Genes
Yusufujiangaili Dilimulati
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Lebenswissenschaften
Betreuer*in
Ivo Hofacker
Alle Rechte vorbehalten / All rights reserved
URN
urn:nbn:at:at-ubw:1-29392.83731.373354-3
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Gene für nicht-Protein-kodierende RNA (ncRNA) spielen eine Rolle in verschiedensten wichtigen biologischen Prozessen und sind dementsprechend stark verbreitet. RNAse P RNA, ein mögliches Überbleibsel aus der RNA Welt, ist ein essentielles Ribozym welches unter anderem eine Rolle in der Prozessierung von pre-tRNAs spielt. Aufgrund ihrer starken Variabilität sowohl auf Sequenz- als auch auf struktureller Ebene hat sich die Annotation der RNAse P RNA Familie als schwierige Aufgabe herausgestellt. Einer der schwierigsten und wohl der faszinierendste Fall betrifft den "missing link" in Aquifex Aeolics. Obwohl indirekte Beweise für eine RNAse P Aktivität vorliegen konnten weder RNAse P RNA noch Protein Komponenten dieses hyperthemophilen Bakteriums gefunden werden. Diese Arbeit präsentiert zwei unterschiedliche Strategien zur Entwicklung von computergestützten Methoden mit dem Ziel RNAse P RNA Gene vorherzusagen. Um die Such-Geschwindigkeit zu verbessern nutzt die erste Strategie Subfamilien-spezifische Eigenschaften um eine effektive Pipeline, Bcheck 0.6, für das Aufspüren von RNAse P RNA Genen in allen Domänen des Lebens zu entwickeln. Um der ungewöhnlichen Fälle in den prokaryotischen Domänen Herr zu werden, verbessert die zweite Strategie die Vorhersage indem sie Domänen - übergreifende Eigenschaften reorganisiert und so als Grundlage für eine mächtige Pipeline, Bcheck 1.0, dient. Als weiteres Grundlage dient hier die Bestimmung der thermodynamischen Stabilität des P4 Doppelstrangs. Die Bcheck Pipeline vereint die Geschwindigkeit von Muster-Erkennung mit der Sensitivität von Kovarianz-Modellen um eine Hochdurchsatz-Analyse zu ermöglichen. Der Einsatz von Bcheck 0.6, zum Scannen aller mikrobiellen Genome in GenBank, identifizierte RNAse P RNA Gene in 98% der 1024 mikrobiellen chromosomalen Sequenzen, innerhalb von 4 Einzel-CPU Stunden. Im Vergleich mit bereits existierenden Annotationen von 387 GenBank Dateien zeigten Bcheck 0.6 Vorhersagen eine intaktere Struktur und wurden zusätzlich je nach Zugehörigkeit in Subfamilien eingeteilt. In eukaryotischen Chromosomen konnte Bcheck 0.6 bekannten RNAse P RNA Gene in 84 von 85 Metazoa und 19 von 21 Funghi Genomen. Des weiteren sagte Bcheck 0.6 37 bisher unbekannte eukaryotische RNAse P RNA Gene voraus, 32 davon in Funghi Genomen und Gen Duplikation konnten in mindestens 20 Metazoa Organismen beobachtet werden. Ein Scan von metagenomschen Daten der "Global Ocean Sampling Expedition" bestehend aus mehr als 10 Millionen Sequenzen (18 Gigabasen), sagte 2909 einzigartige Gene voraus, von denen 98% Vorgänger - Bakterien des Typus A der RNAse P RNA zugeordnet werden konnten von denen wiederum 66% keine nahen Homologe mit bekannten Prokaryotischen RNAse P RNA haben. Verglichen mit Bcheck 0.6, zeigt Bcheck 1.0 einen Rueckgang der Suchgeschwindigkeit, liefert jedoch stark verbesserte Vorhersagen von RNAse P RNA Kandidaten auch in extrem schwierigen Fällen. Der RNA Kandidat in Aquifex Aeolics zeigt eine überraschende Koexistenz von Strukturelementen die eigentlich als spezifisch für zwei verschiedene Subfamilien gelten. Unsere Resultate zeigen dass die Entwicklung einer Pipeline zur Vorhersage auf einem empfindlichen Zwischenspiel aus Eigenschafts - Selektionierung und Methoden-Assoziation beruht. Das Paradigma das in dieser Arbeit entwickelt wurde kann als generelles angesehen werden und bei der Entwicklung computergestützter Methoden für die Vorhersage anderer ncRNA Familien Anwendung finden.
Abstract
(Englisch)
Non-protein-coding RNA (ncRNA) genes are abundant in genomic sequences, playing diverse and important biological roles. RNase P RNA, possibly a remnant of the RNA world, is an universally essential ribozyme involved in the processing of pre-tRNAs. Due to the strong variability at both sequence and structure levels, the annotation of the RNase P RNA family has proven to be a challenging task. Among the difficult cases, the most intriguing one is the missing link in Aquifex aeolicus. Even though there is indirect evidence showing RNase P activity, neither RNase P RNA nor the protein component can be found in this deep branching hyperthermophilic bacterium. In this thesis, two different strategies are presented for developing computational methods to predict RNase P RNA genes. For the purpose of improving the search speed, the first strategy utilizes the subfamily-specific features to develop an efficient pipeline, Bcheck-sub, to capture RNase P RNA genes in all domains of life. In order to tackle the unusual cases in the prokaryotic domains, the second strategy enhances the predictivity by simply reorganizing the cross-domain features based on which a powerful pipeline, Bcheck-prok, is developed. The measurement of the thermodynamic stability of the P4 stem is employed as an additional assessment in Bcheck-prok. The Bcheck pipelines enable high-throughput analysis by taking advantage of the speed of pattern matching and the sensitivity of covariance models. With Bcheck-sub, scanning all microbial genomes in GenBank identified RNase P RNA genes in 98% of 1024 microbial chromosomal sequences within just 4 hours on single CPU. Compared to existing annotations found in 387 of the GenBank files, Bcheck-sub predictions have more intact structures and are automatically classified by subfamily membership. For eukaryotic chromosomes Bcheck-sub could identify the known RNase P RNA genes in 84 out of 85 metazoan genomes and 19 out of 21 fungi genomes. Bcheck-sub predicted 37 novel eukaryotic RNase P RNA genes, 32 of which are from fungi. Gene duplication events are observed in at least 20 metazoan organisms. Scanning of metagenomic data from the Global Ocean Sampling Expedition, comprising over 10 million sample sequences (18 Gigabases), predicted 2909 unique genes, 98% of which fall into ancestral bacteria A type of RNase P RNA and 66% of which have no close homolog to known prokaryotic RNase P RNA. Compared to Bcheck-sub, Bcheck-prok shows a decrease in search speed and demonstrates a much stronger predictive power, which has successfully predicted the reasonable RNase P RNA candidates for extremely difficult cases. The RNA candidate of Aquifex aeolicus displays a surprising coexistence of structural elements which are supposedly specific to two different subfamilies. Our results demonstrate that the development of predictive pipeline involves a delicate in- teraction between the feature selection and method association. The paradigm developed in this thesis is general and can also be applied to developing computational methods to predict other ncRNA families.

Schlagwörter

Schlagwörter
(Englisch)
RNase P RNA genes computational prediction
Schlagwörter
(Deutsch)
RNase P RNA genes computational prediction
Autor*innen
Yusufujiangaili Dilimulati
Haupttitel (Englisch)
Computational methods to predict
Hauptuntertitel (Englisch)
RNase P RNA Genes
Publikationsjahr
2012
Umfangsangabe
169 S. : graph. Darst.
Sprache
Englisch
Beurteiler*innen
Thomas Rattei ,
Jan Gorodkin
Klassifikation
30 Naturwissenschaften allgemein > 30.00 Naturwissenschaften allgemein: Allgemeines
AC Nummer
AC10907300
Utheses ID
19478
Studienkennzahl
UA | 091 | 490 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1