Detailansicht

Computational estimation of energy parameters for RNA folding
Thomas Spicher
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Bioinformatik
Betreuer*in
Ivo Hofacker
Alle Rechte vorbehalten / All rights reserved
URN
urn:nbn:at:at-ubw:1-11270.93200.351780-2
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Die Struktur der RNA ist im Allgemeinen entscheidend für ihre biologische Funktion. Die meisten strukturellen Informationen, die zum Verständnis der RNA-Funktion erforderlich sind, können aus ihrer Sekundärstruktur gewonnen werden. Die Vorhersage der RNA-Sekundärstruktur beruht auf Energieparametern, die der freien Energie von kleinen Strukturmotiven entsprechen. Für kanonische Nukleotide wurden diese Parameter aus UV-Schmelzexperimenten abgeleitet und in der Nearest Neighbor (NN) Parameterdatenbank gesammelt. NN-Parameter werden in den meisten physikbasierten Algorithmen zur Sekundärstrukturvorhersage verwendet. Obwohl die Watson-Crick-Basenpaare die wichtigsten Motive in RNA-Sekundärstrukturen darstellen, erschwert das Fehlen von Parametern für modifizierte Nukleotide die rechnerische Vorhersage von RNA-Strukturen. Nur wenige Parameter für modifizierte Nukleotide wurden bisher bestimmt und der Aufwand, alle relevanten Parameter experimentell zu messen, ist unrealistisch hoch. Eine Alternative zu teuren Experimenten besteht darin, Parameter aus Computersimulationen kleiner Strukturmotive zu extrahieren. Die Rosetta-Software bietet ein coarse grained Modell, das RECCES-Framework, das solche Simulationen realisieren kann. In früheren Arbeiten wurde gezeigt, dass das Rosetta-RECCES-Framework in der Lage ist, NN-Parameter für Inosine vorherzusagen, die mit experimentellen Ergebnissen vergleichbar sind. Um die bestehenden NN-Parameter zu vervollständigen und in weiteren Schritten die Algorithmen zur Vorhersage der RNA-Sekundärstruktur zu verbessern, untersucht diese Arbeit die Fähigkeit von Computersimulationen, NN-Parameter von gestapelten Basenpaaren mit modifizierten Nukleotiden zu bestimmen. Zwei verschiedene Methoden wurden verwendet, um Energieparameter rechnerisch zu extrahieren: Subtraktion von Duplexen, die sich um genau ein gestapeltes Basenpaar unterscheiden, und lineare Regression. In beiden Fällen liegen die rechnerischen Vorhersagen für modifizierte Nukleotide außerhalb des Bereichs der experimentell bestimmten NN-Parameterwerte. Während die Analyse der von RECCES vorhergesagten freien Faltungsenergie eine hohe Korrelation mit Schätzungen aus dem NN-Modell und bestehenden Energieparametern zeigt, wurde eine modifikationsabhängige systematische Abweichung gefunden. Dies kann auf eine gewisse Ungenauigkeit entweder der Rosetta-Energiefunktion oder des Simulationsverhaltens für modifizierte Nukleotide hinweisen. Trotz der offengelegten Einschränkungen des RECCES-Frameworks bezüglich der Basenpaare I-U, Ψ-A und m6A-U ermutigen die genauen Vorhersagen für Watson-Crick, G-U, und I-C-Basenpaare dazu, die Forschung an der Vorhersage neuer NN-Parameter mit coarse grained Modellen fortzusetzen.
Abstract
(Englisch)
The structure of RNA is generally crucial for its biological function. Most of the structural information needed to understand RNA functioning can be gathered from its secondary structure. RNA secondary structure prediction relies on energy parameters corresponding to the free energies of small structure motifs. For canonical nucleotides, these parameters have been derived from UV melting experiments and collected in the Nearest Neighbor (NN) parameter database. NN parameters are used in most of the physics based algorithms for secondary structure prediction. Although the Watson-Crick base pairs represent the most important motifs in RNA secondary structures, the lack of parameters for modified nucleotides impede the computational prediction of RNA structures. Only a few parameters for modified nucleotides have been determined and the effort to experimentally measure all relevant parameters is unrealistically high. An alternative to expensive experiments is to extract parameters from computational simulations of small structure motifs. The Rosetta software provides a coarse grained model, the RECCES framework, which can realize these kinds of simulations. In previous work, the Rosetta-RECCES framework was shown to be capable of predictions of NN parameters containing inosine, which are comparable to experimental results. In order to complete the existing NN parameters and in further steps to improve the RNA secondary structure prediction algorithms, the aim of this work is to examine the ability of computational simulations to determine NN parameters of stacking pairs containing modified nucleotides. Two different methods were used to computationally extract energy parameters: subtraction of duplexes differing by exactly one stack and linear regression. In both cases the computational predictions for modified nucleotides lie outside the range of the experimentally determined NN parameter values. While the analysis of the folding free energy predicted by RECCES shows high correlation with estimations from the NN model and existing energy parameters, a modification dependent systematic error was found. This may indicate some imprecision either of the Rosetta energy function or of the simulation behaviour when used on modified nucleotides. Despite the exposed limitations of the RECCES framework concerning I-U, Ψ-A, and m6A-U base pairs, the accurate predictions for Watson-Crick, G-U, and I-C base pairs encourage to continue the research on coarse grained models to predict new NN parameters.

Schlagwörter

Schlagwörter
(Englisch)
RNA folding Computational simulation Energy Thermodynamic
Schlagwörter
(Deutsch)
RNA Faltung Computersimulation Energie Thermodynamik
Autor*innen
Thomas Spicher
Haupttitel (Englisch)
Computational estimation of energy parameters for RNA folding
Paralleltitel (Deutsch)
Computerbasierte Berechnung von Energieparametern für die RNA-Faltung
Publikationsjahr
2021
Umfangsangabe
xii, 86 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Ivo Hofacker
Klassifikationen
42 Biologie > 42.10 Theoretische Biologie ,
54 Informatik > 54.76 Computersimulation
AC Nummer
AC16519613
Utheses ID
61344
Studienkennzahl
UA | 066 | 875 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1