Detailansicht
Unsupervised construction, evaluation and visualisation of RNA family models
Florian Eggenhofer
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Chemie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Doctor of Philosophy-Doktoratsstudium NAWI Bereich Lebenswissenschaften (Dissertationsgebiet: Molekulare Biologie)
Betreuer*in
Ivo Hofacker
DOI
10.25365/thesis.44346
URN
urn:nbn:at:at-ubw:1-31192.92336.427762-0
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
RNA-Familien werden in den Computerwissenschaften durch RNA-Familien
Modelle, auch bekannt als Covarianz-Modelle repräsentiert. Covarianz-Modelle
bilden Struktur und Sequenz der Familie als statistisches Modell ab. Sie
machen es möglich weitere, zuvor unbekannte, Vertreter der RNA Familie in
genomischen Sequenzen zu identifizieren. Dieser Vorgang ermöglicht es bekanntes
Wissen und experimentelle Ergebnisse von einem auf den anderen Organismus zu
transferieren und vereinfacht das Design neuer Experimente.
In der Vergangenheit wurden RNA-Familien Modelle durch manuelles Sammeln und Verfeinern,
oder durch automatische Losungen für einige wenige
spezielle RNA Familien konstruiert. Die Publikation ”RNAlien - Unsupervised
RNA-family model construction” stellt eine neue Methode zum automatischen
Konstruieren solcher Modelle, prinzipiell für jede RNA Sequenz, vor. RNAlien,
ausgehend von einer einzelnen Eingabesequenz, sammelt potentielle Familien-
mitglieder durch multiple Iteration von Homologiesuche. RNA-Familien Modelle
werden automatisch für die gefundenen Sequenzen gebaut.
Die Qualitat von RNA-Familien Modellen und ihre Leistungsfähigkeit in der
Homologiesuche hängt von verschiedenen Faktoren ab. RNAlien wertet sowohl
die Modelle, als auch die alignierten Sequenzen die zum Bau der Modelle verwendet wurden,
aus um so viel Information wie möglich zur Verfügung zu
stellen. Dies berücksichtigt allerdings nur das neukonstruierte Modell und
setzt es nicht in Beziehung zu anderen Modellen.
Die folgende Publikation, mit dem Titel ”CMCompare webserver: comparing
RNA families via covariance models”, behandelt den Vergleich zwischen Modellen.
Dies erlaubt die Identifizierung von Modellen mit schlecher Spezifität
und die Untersuchung von Beziehungen zwischen Modellen. Visualisierung
dieser Zusammenhänge hilft bei der Identifizierung von Kandidaten für Clans,
Gruppen biologisch verknüpfter Familien.
Darüberhinaus wird ein Programmpacket, mit dem Namen TaxonomyTools,
vorgestellt, welches die Visualsierung und den Vergleich der Taxonomie von
gefundenen RNA Familien Mitgliedern ermöglicht.
Sequenzen von Familienmitglieder, die von RNAlien wahrend des Konstruktionsprozesses
identifiziert wurden, sind ein Ausgangspunkt für die weitere Untersuchung der Familie.
UCSC genome browser hubs visualisieren die gefundenen Familienmitglieder in ihrem
genomischen Kontext, was Eigenschaften wie zum Beispiel Orthologie sichtbar macht.
Methoden um solche Hubs zu bauen wurden als Beitrag mit der Publikation
”ViennaNGS: A toolbox for building efficient next-generation sequencing analysis pipelines”
veröffentlicht und werden hier präsentiert.
Abstract
(Englisch)
RNA performs important functions in all organisms, for example mediating
gene expression. RNAs are often evolutionary conserved over large set of
species, giving rise to families of homologous RNA genes. These RNA families
exhibit not only sequence similarity, but are often characterized by strong
conservation of the RNA structure.
Computationally, RNA families are represented by RNA-family models, also
known as covariance models. Covariance models capture structure and sequence
of the family in a probabilistic model. They enable the prediction of
additional, previously unknown, members of the RNA-family from genomic
sequences. This allows a knowledge transfer between organisms and helps in
designing experiments.
Up to now RNA-family models were constructed by manual collection and
curation, or automatic solutions for a few specific RNA families. The peer-
reviewed publication for ”RNAlien - Unsupervised RNA-family model construction”
introduces a novel method to automatically construct such models,
in principle for any RNA sequence. RNAlien, starting from a single input se-
quence collects potential family member sequences by multiple iterations of
homology search. RNA-family models are fully automatically constructed for
the found sequences.
The quality of RNA-family models and their performance in homology search
depends on several factors. RNAlien evaluates both the models as well as the
aligned sequences used to build them, to provide as much information about
the model as possible. However this takes only the novel model itself into
consideration, but does not investigate it in context with other models.
The following manuscript, with the title ”CMCompare webserver: comparing
RNA families via covariance models”, addresses the comparison between models.
This allows to identify models with poor specificity and to explore the
relationship between models. Visualisation of family relationships helps in
identifying candidates for clans, groups of biologically related families.
Moreover the thesis presents a novel tool to visualise and compare the taxonomy
of of found RNA-family members, called TaxonomyTools.
Family member sequences found by RNAlien during the model construction
process are also a useful starting point for investigating families. UCSC genome
browser hubs visualise the found family members in their genetic context,
showing traits like orthology. Methods to constructs such hubs were contributed
to the publication ”ViennaNGS: A toolbox for building efficient next-
generation sequencing analysis pipelines” and are also presented in the thesis.
Schlagwörter
Schlagwörter
(Englisch)
RNA RNA family Taxonomy Homology search Covariance model
Schlagwörter
(Deutsch)
RNA Ribonukleinsäure RNA Familie Taxonomie Homologiesuche Covarianzmodel
Autor*innen
Florian Eggenhofer
Haupttitel (Englisch)
Unsupervised construction, evaluation and visualisation of RNA family models
Publikationsjahr
2016
Umfangsangabe
XIII, 137 Seiten : Diagramme
Sprache
Englisch
Beurteiler*innen
Thomas Rattei ,
Jan Gorodkin
Klassifikation
42 Biologie > 42.13 Molekularbiologie
AC Nummer
AC13400162
Utheses ID
39250
Studienkennzahl
UA | 794 | 685 | 490 |