Detailansicht

Unsupervised construction, evaluation and visualisation of RNA family models
Florian Eggenhofer
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Chemie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Doctor of Philosophy-Doktoratsstudium NAWI Bereich Lebenswissenschaften (Dissertationsgebiet: Molekulare Biologie)
Betreuer*in
Ivo Hofacker
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.44346
URN
urn:nbn:at:at-ubw:1-31192.92336.427762-0
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
RNA-Familien werden in den Computerwissenschaften durch RNA-Familien Modelle, auch bekannt als Covarianz-Modelle repräsentiert. Covarianz-Modelle bilden Struktur und Sequenz der Familie als statistisches Modell ab. Sie machen es möglich weitere, zuvor unbekannte, Vertreter der RNA Familie in genomischen Sequenzen zu identifizieren. Dieser Vorgang ermöglicht es bekanntes Wissen und experimentelle Ergebnisse von einem auf den anderen Organismus zu transferieren und vereinfacht das Design neuer Experimente. In der Vergangenheit wurden RNA-Familien Modelle durch manuelles Sammeln und Verfeinern, oder durch automatische Losungen für einige wenige spezielle RNA Familien konstruiert. Die Publikation ”RNAlien - Unsupervised RNA-family model construction” stellt eine neue Methode zum automatischen Konstruieren solcher Modelle, prinzipiell für jede RNA Sequenz, vor. RNAlien, ausgehend von einer einzelnen Eingabesequenz, sammelt potentielle Familien- mitglieder durch multiple Iteration von Homologiesuche. RNA-Familien Modelle werden automatisch für die gefundenen Sequenzen gebaut. Die Qualitat von RNA-Familien Modellen und ihre Leistungsfähigkeit in der Homologiesuche hängt von verschiedenen Faktoren ab. RNAlien wertet sowohl die Modelle, als auch die alignierten Sequenzen die zum Bau der Modelle verwendet wurden, aus um so viel Information wie möglich zur Verfügung zu stellen. Dies berücksichtigt allerdings nur das neukonstruierte Modell und setzt es nicht in Beziehung zu anderen Modellen. Die folgende Publikation, mit dem Titel ”CMCompare webserver: comparing RNA families via covariance models”, behandelt den Vergleich zwischen Modellen. Dies erlaubt die Identifizierung von Modellen mit schlecher Spezifität und die Untersuchung von Beziehungen zwischen Modellen. Visualisierung dieser Zusammenhänge hilft bei der Identifizierung von Kandidaten für Clans, Gruppen biologisch verknüpfter Familien. Darüberhinaus wird ein Programmpacket, mit dem Namen TaxonomyTools, vorgestellt, welches die Visualsierung und den Vergleich der Taxonomie von gefundenen RNA Familien Mitgliedern ermöglicht. Sequenzen von Familienmitglieder, die von RNAlien wahrend des Konstruktionsprozesses identifiziert wurden, sind ein Ausgangspunkt für die weitere Untersuchung der Familie. UCSC genome browser hubs visualisieren die gefundenen Familienmitglieder in ihrem genomischen Kontext, was Eigenschaften wie zum Beispiel Orthologie sichtbar macht. Methoden um solche Hubs zu bauen wurden als Beitrag mit der Publikation ”ViennaNGS: A toolbox for building efficient next-generation sequencing analysis pipelines” veröffentlicht und werden hier präsentiert.
Abstract
(Englisch)
RNA performs important functions in all organisms, for example mediating gene expression. RNAs are often evolutionary conserved over large set of species, giving rise to families of homologous RNA genes. These RNA families exhibit not only sequence similarity, but are often characterized by strong conservation of the RNA structure. Computationally, RNA families are represented by RNA-family models, also known as covariance models. Covariance models capture structure and sequence of the family in a probabilistic model. They enable the prediction of additional, previously unknown, members of the RNA-family from genomic sequences. This allows a knowledge transfer between organisms and helps in designing experiments. Up to now RNA-family models were constructed by manual collection and curation, or automatic solutions for a few specific RNA families. The peer- reviewed publication for ”RNAlien - Unsupervised RNA-family model construction” introduces a novel method to automatically construct such models, in principle for any RNA sequence. RNAlien, starting from a single input se- quence collects potential family member sequences by multiple iterations of homology search. RNA-family models are fully automatically constructed for the found sequences. The quality of RNA-family models and their performance in homology search depends on several factors. RNAlien evaluates both the models as well as the aligned sequences used to build them, to provide as much information about the model as possible. However this takes only the novel model itself into consideration, but does not investigate it in context with other models. The following manuscript, with the title ”CMCompare webserver: comparing RNA families via covariance models”, addresses the comparison between models. This allows to identify models with poor specificity and to explore the relationship between models. Visualisation of family relationships helps in identifying candidates for clans, groups of biologically related families. Moreover the thesis presents a novel tool to visualise and compare the taxonomy of of found RNA-family members, called TaxonomyTools. Family member sequences found by RNAlien during the model construction process are also a useful starting point for investigating families. UCSC genome browser hubs visualise the found family members in their genetic context, showing traits like orthology. Methods to constructs such hubs were contributed to the publication ”ViennaNGS: A toolbox for building efficient next- generation sequencing analysis pipelines” and are also presented in the thesis.

Schlagwörter

Schlagwörter
(Englisch)
RNA RNA family Taxonomy Homology search Covariance model
Schlagwörter
(Deutsch)
RNA Ribonukleinsäure RNA Familie Taxonomie Homologiesuche Covarianzmodel
Autor*innen
Florian Eggenhofer
Haupttitel (Englisch)
Unsupervised construction, evaluation and visualisation of RNA family models
Publikationsjahr
2016
Umfangsangabe
XIII, 137 Seiten : Diagramme
Sprache
Englisch
Beurteiler*innen
Thomas Rattei ,
Jan Gorodkin
Klassifikation
42 Biologie > 42.13 Molekularbiologie
AC Nummer
AC13400162
Utheses ID
39250
Studienkennzahl
UA | 794 | 685 | 490 |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1