Detailansicht
Machine learning for RNA structure prediction
Julia Wielach
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Bioinformatik
Betreuer*in
Christoph Flamm
DOI
10.25365/thesis.65724
URN
urn:nbn:at:at-ubw:1-21281.15239.101059-0
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Einst nur als Zwischenstufe von DNA und Proteinen betrachtet, ist RNA heutzutage
dafür bekannt, an verschiedenen biologischen Prozessen in regulierender und katalytischer
Funktion beteiligt zu sein.
Die Funktion von RNA hängt üblicherweise stark von deren Struktur ab, wobei die
Struktur auch besser konserviert ist als die Sequenz, was dazu geführt hat, dass RNA
Struktur seit Jahrzehnten erforscht wird.
RNA faltet sich auf hierarchische Weise von Primär-, zu Sekundär-, zu Tertiär- und
schließlich zu Quartärstruktur, wobei die Sekundärstruktur schnell ausgebildet wird,
während die Bildung der Tertiärstruktur üblicherweise ein langsamer Prozess ist.
Die RNA Sekundärstruktur setzt sich aus allen kanonischen Basenpaaren,
einschließlich Wobble Basenpaaren, zusammen. Dies schließt Basenpaare von Adenin mit
Uracil, Cytosin mit Guanin und Guanin mit Uracil ein.
Die Sekundärstruktur ist von Interesse für die Forschung, da sie eine geeignete
Zwischenstufe in der Vorhersage der Tertiärstruktur ist und effiziente Algorithmen für
ihre Vorhersage existieren.
Traditionell wurde dynamische Programmierung genutzt, um die Strukturen mit der
niedrigsten freien Energie zu finden, dabei werden Nächste-Nachbar Parameter genutzt,
um die Stabilität verschiedener Faltungsmotive abzuschätzen.
Während diese Algorithmen effizient sind und häufig verwendet werden, haben sie dennoch
einige Versäumnisse.
Beispiele dafür sind die Beschränkung auf verschachtelte Strukturen, da dies Pseudok-
noten ausschließt, oder die mögliche Vernachlässigung von Interaktionen zwischen weit
entfernten Basen.
Da die Verwendung künstlicher Intelligenz in vielen Bereichen von Bildklassifizierung zu
Spracherkennung und zu Proteinstrukturvorhersage an Beliebtheit gewinnt, haben diese
Methoden auch erste Anwendung in der RNA Sekundärstrukturvorhersage gefunden.
Das Ziel dieser Arbeit ist es, die Verwendbarkeit von Deep Learning Methoden für die
Vorhersage von RNA Sekundärstrukturen zu überprüfen, um herauszufinden, ob sie eine
ähnliche Leistung wie Dynamische Programmierungsalgorithmen erreichen oder auch
Verbesserungen bieten können.
Es werden sowohl verschiedene Netzwerktypen wie Long-Short Term Memory Netzwerke
(LSTMs) oder Convolutional Neurale Netzwerke (CNNs), als auch verschiedene Arten
Input und Output darzustellen getestet.
Während einige, bereits publizierte Methoden gute Leistungen vorweisen, wird in dieser
Arbeit auch versucht, Aspekte wie Vergleichbarkeit zwischen Modellen, Generalisierbarkeit
und die Abhängigkeit von Daten zu diskutieren, um eine breitere Sicht auf das Thema zu
bieten.
Zusätzlich werden alternative Bewertungsmethoden vorgestellt, wie die Berücksichtigung
von lokalen und globalen Eigenschaften und die Topologie von Strukturen.
Abstract
(Englisch)
Once only thought of as the intermediate step between DNA and proteins, RNA is
nowadays known to be involved in various biological processes in a regulating or
catalyzing function.
RNA function is usually strongly dependent on its structure, with the structure also
being more conserved than the sequence, making RNA structure prediction the subject of
research since decades.
RNA folds in a hierarchical way from primary, to secondary, to tertiary and to quaternary
structure, forming the secondary structure quite rapidly, while the formation of the
tertiary structure is usually a slow process.
RNA secondary structure consists of all canonical base pairs, including wobble base pairs.
This includes base pairs of Adenine with Uracil, Cytosine with Guanine and Guanine
with Uracil.
Secondary structure is of interest for research, as it is a suitable intermediate step in
the prediction of the full tertiary structure and efficient computational methods for its
prediction are available.
Traditional methods have been relying on dynamic programming algorithms to find
the lowest free energy structure, using nearest neighbor parameters to estimate folding
stability.
While these algorithms are efficient and widely used, they have some shortcomings.
For example the restriction on all nested structures, excluding pseudoknots, or the possible
neglect of long distance effects.
As Artificial Intelligence methods are gaining popularity in many fields, ranging from
image classification to speech recognition and protein structure prediction, they have
found their way into RNA secondary structure prediction.
The aim of this thesis is to explore deep learning techniques for their use in RNA secondary
structure prediction, to see if they could reach the performance of state-of-the-art dynamic
programming approaches or even offer enhancements.
Different network types such as Long-Short Term Memory Networks (LSTMs) or
Convolutional Neural Networks (CNNs) are tested as well as different ways to represent
input and output.
While several already published machine learning models report good performances, this
thesis tries to discuss aspects such as comparability between methods, generalization
ability and dataset dependence to offer a broad view on the topic.
Additionally, other measures of performance, such as the representation of global and local
secondary structure constraints and the overall topology of structures, are presented.
Schlagwörter
Schlagwörter
(Englisch)
RNA RNA structure RNA structure prediction RNA secondary structure prediction RNA secondary structure machine learning deep learning CNN LSTM ResNet
Schlagwörter
(Deutsch)
RNA RNA Struktur RNA Strukturvorhersage RNA Sekundärstrukturvorhersage RNA Sekundärstruktur Maschinelles Lernen Tiefes Lernen CNN LSTM ResNet
Autor*innen
Julia Wielach
Haupttitel (Englisch)
Machine learning for RNA structure prediction
Paralleltitel (Deutsch)
Maschinelles Lernen für RNA Strukturvorhersage
Publikationsjahr
2021
Umfangsangabe
96 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Christoph Flamm
AC Nummer
AC16272031
Utheses ID
58210
Studienkennzahl
UA | 066 | 875 | |