Detailansicht

Machine learning for RNA structure prediction

Julia Wielach

Art der Arbeit

Masterarbeit

Universität

Universität Wien

Fakultät

Fakultät für Informatik

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Masterstudium Bioinformatik

Betreuer*in

Christoph Flamm

Volltext herunterladen
Volltext in Browser öffnen

DOI

10.25365/thesis.65724

URN

urn:nbn:at:at-ubw:1-21281.15239.101059-0

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Einst nur als Zwischenstufe von DNA und Proteinen betrachtet, ist RNA heutzutage dafür bekannt, an verschiedenen biologischen Prozessen in regulierender und katalytischer Funktion beteiligt zu sein. Die Funktion von RNA hängt üblicherweise stark von deren Struktur ab, wobei die Struktur auch besser konserviert ist als die Sequenz, was dazu geführt hat, dass RNA Struktur seit Jahrzehnten erforscht wird. RNA faltet sich auf hierarchische Weise von Primär-, zu Sekundär-, zu Tertiär- und schließlich zu Quartärstruktur, wobei die Sekundärstruktur schnell ausgebildet wird, während die Bildung der Tertiärstruktur üblicherweise ein langsamer Prozess ist. Die RNA Sekundärstruktur setzt sich aus allen kanonischen Basenpaaren, einschließlich Wobble Basenpaaren, zusammen. Dies schließt Basenpaare von Adenin mit Uracil, Cytosin mit Guanin und Guanin mit Uracil ein. Die Sekundärstruktur ist von Interesse für die Forschung, da sie eine geeignete Zwischenstufe in der Vorhersage der Tertiärstruktur ist und effiziente Algorithmen für ihre Vorhersage existieren. Traditionell wurde dynamische Programmierung genutzt, um die Strukturen mit der niedrigsten freien Energie zu finden, dabei werden Nächste-Nachbar Parameter genutzt, um die Stabilität verschiedener Faltungsmotive abzuschätzen. Während diese Algorithmen effizient sind und häufig verwendet werden, haben sie dennoch einige Versäumnisse. Beispiele dafür sind die Beschränkung auf verschachtelte Strukturen, da dies Pseudok- noten ausschließt, oder die mögliche Vernachlässigung von Interaktionen zwischen weit entfernten Basen. Da die Verwendung künstlicher Intelligenz in vielen Bereichen von Bildklassifizierung zu Spracherkennung und zu Proteinstrukturvorhersage an Beliebtheit gewinnt, haben diese Methoden auch erste Anwendung in der RNA Sekundärstrukturvorhersage gefunden. Das Ziel dieser Arbeit ist es, die Verwendbarkeit von Deep Learning Methoden für die Vorhersage von RNA Sekundärstrukturen zu überprüfen, um herauszufinden, ob sie eine ähnliche Leistung wie Dynamische Programmierungsalgorithmen erreichen oder auch Verbesserungen bieten können. Es werden sowohl verschiedene Netzwerktypen wie Long-Short Term Memory Netzwerke (LSTMs) oder Convolutional Neurale Netzwerke (CNNs), als auch verschiedene Arten Input und Output darzustellen getestet. Während einige, bereits publizierte Methoden gute Leistungen vorweisen, wird in dieser Arbeit auch versucht, Aspekte wie Vergleichbarkeit zwischen Modellen, Generalisierbarkeit und die Abhängigkeit von Daten zu diskutieren, um eine breitere Sicht auf das Thema zu bieten. Zusätzlich werden alternative Bewertungsmethoden vorgestellt, wie die Berücksichtigung von lokalen und globalen Eigenschaften und die Topologie von Strukturen.

Abstract

(Englisch)

Once only thought of as the intermediate step between DNA and proteins, RNA is nowadays known to be involved in various biological processes in a regulating or catalyzing function. RNA function is usually strongly dependent on its structure, with the structure also being more conserved than the sequence, making RNA structure prediction the subject of research since decades. RNA folds in a hierarchical way from primary, to secondary, to tertiary and to quaternary structure, forming the secondary structure quite rapidly, while the formation of the tertiary structure is usually a slow process. RNA secondary structure consists of all canonical base pairs, including wobble base pairs. This includes base pairs of Adenine with Uracil, Cytosine with Guanine and Guanine with Uracil. Secondary structure is of interest for research, as it is a suitable intermediate step in the prediction of the full tertiary structure and efficient computational methods for its prediction are available. Traditional methods have been relying on dynamic programming algorithms to find the lowest free energy structure, using nearest neighbor parameters to estimate folding stability. While these algorithms are efficient and widely used, they have some shortcomings. For example the restriction on all nested structures, excluding pseudoknots, or the possible neglect of long distance effects. As Artificial Intelligence methods are gaining popularity in many fields, ranging from image classification to speech recognition and protein structure prediction, they have found their way into RNA secondary structure prediction. The aim of this thesis is to explore deep learning techniques for their use in RNA secondary structure prediction, to see if they could reach the performance of state-of-the-art dynamic programming approaches or even offer enhancements. Different network types such as Long-Short Term Memory Networks (LSTMs) or Convolutional Neural Networks (CNNs) are tested as well as different ways to represent input and output. While several already published machine learning models report good performances, this thesis tries to discuss aspects such as comparability between methods, generalization ability and dataset dependence to offer a broad view on the topic. Additionally, other measures of performance, such as the representation of global and local secondary structure constraints and the overall topology of structures, are presented.

Autor*innen

Julia Wielach

Haupttitel (Englisch)

Machine learning for RNA structure prediction

Paralleltitel (Deutsch)

Maschinelles Lernen für RNA Strukturvorhersage

Publikationsjahr

2021

Umfangsangabe

96 Seiten : Illustrationen

Sprache

Englisch

Beurteiler*in

Christoph Flamm

Klassifikationen

35 Chemie > 35.65 Nukleinsäuren ,

42 Biologie > 42.25 Spezielle Biologie ,

54 Informatik > 54.72 Künstliche Intelligenz

AC Nummer

AC16272031

Utheses ID

58210

Studienkennzahl

UA | 066 | 875 | |

Detailansicht

Abstracts

Schlagwörter