Detailansicht

Virus orthologous groups assignment with DeepNOG and VOGDB
Alexander Pfundner
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Physik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Computational Science
Betreuer*in
Thomas Rattei
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.71077
URN
urn:nbn:at:at-ubw:1-10981.15839.948527-8
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Proteinen Funktionen zuzuordnen ist eine zentrale Aufgabe der Molekularbiologie. Die Menge an Sequenzdaten, die heute anfällt, kann durch biologische Experimente nicht mehr effizient verarbeitet werden, daher werden computergestützte Methoden benötigt. Die Funktion eines Proteins lässt sich durch seine Struktur erklären, die weitgehend durch die Aminosäuresequenz kodiert wird. Orthologe sind Gene, die von einem letzten gemeinsamen Vorfahren abstammen und daher eine hohe Sequenzähnlichkeit aufweisen. Orthologieressourcen sind Datenbanken, die orthologe Sequenzen gruppieren, wodurch es möglich ist, Annotationen von einer Gruppe auf eine unbekannte Sequenz zu übertragen, die sich zu dieser Gruppe zuordnet. Diese Arbeit untersucht, wie die jüngsten Entwicklungen in der orthologen Gruppenzuordnung (DeepNOG) und die Verfügbarkeit einer umfassenden Orthologieressource für Viren (VOGDB) genutzt werden können, um eine schnelle und akkurate Methode für die Zuordnung von Virusproteinen zu Orthologiegruppen zu erstellen. DeepNOG ist ein Deep Learning Ansatz, der Sequenzen orthologen Gruppen zuweist. VOGDB ist eine virale Orthologiedatenbank, die alle verfügbaren viralen Proteine von RefSeq enthält und Hidden Markov Modelle verwendet, um orthologe Gruppen zu modellieren. Die Datenvorbereitung zum Trainieren eines DeepNOG-Modells aus VOGDB-Daten muss die Eigenschaften des Datensatzes in Bezug auf die Klassenkardinalitäten berücksichtigen. Die Performanz des DeepNOG-Modells wird in Bezug auf Zuversichtlichkeit der Zuordnungen, Laufzeit und Speicherverbrauch mit den Hidden Markov Modellen von VOGDB verglichen. Die Anwendbarkeit des Modells auf reale Szenarien wird anhand externer Datensätze bewertet. Die trainierten DeepNOG-Modelle erreichen eine ähnliche Genauigkeit wie die Hidden Markov Modelle und reduzieren die Zuweisungslaufzeit um mindestens das 100-fache und den Speicherverbrauch um das 30-fache. Das Hyperparametertuning zeigte beim Abweichen von der Standardkonfiguration nur marginale Verbesserungen. Beide Verfahren stimmen überein und erzeugen Zuweisungen mit hoher Konfidenz für andere virale Orthologieressourcen. Die Leistung für Daten aus nicht kultivierten viralen Genomen war für beide Methoden gleich niedrig und Zuweisungen stimmten meistens nicht überein.
Abstract
(Englisch)
Assigning functions to proteins is a central task in molecular biology. The amount of sequence data that is produced nowadays can no longer be processed efficiently through biological experiments, therefore computational methods are needed. The function of a protein can be explained by its structure, which is largely encoded by the amino acid sequence. Orthologs are genes that descended from a last common ancestor and therefore have a high sequence similarity. Orthology resources are databases that cluster orthologous sequences in groups, thus making it possible to transfer annotations from one group to an unknown sequence that maps to this group. This thesis investigates how recent developments in orthologous groups assignment (DeepNOG) and the availability of a comprehensive virus orthology resource (VOGDB) can be utilized to create a fast and accurate method for virus orthologous group assignment. DeepNOG is a deep learning neural network approach that assigns sequences to orthologous groups. VOGDB is a viral orthology database that includes all available viral proteins from RefSeq and uses Hidden Markov models to model orthologous groups. Data preparation for training a DeepNOG model from VOGDB data has to consider the biased nature of the dataset in terms of the class cardinalities. The performance of the DeepNOG model is compared to the Hidden Markov models of VOGDB in terms of assignment confidence, runtime and memory consumption. Model applicability to real-world scenarios is evaluated on external datasets. The trained DeepNOG models achieve similar accuracy as the Hidden Markov models and reduce the assignment runtime by at least a 100-fold and the memory consumption by a 30-fold. Hyperparameter tuning revealed only marginal improvements when deviating from the default configuration. Both methods agree and produce high confidence assignments on other virus orthology resources. Performance for data from uncultivated viral genomes was equally low for both methods with significant disagreement.

Schlagwörter

Schlagwörter
(Deutsch)
Bioinformatik Viren Orthologe Gruppe Maschinelles Lernen
Schlagwörter
(Englisch)
Bioinformatics Viruses Orthologous Groups Machine Learning
Autor*innen
Alexander Pfundner
Haupttitel (Englisch)
Virus orthologous groups assignment with DeepNOG and VOGDB
Paralleltitel (Deutsch)
Zuweisung von viralen orthologen Gruppen mit DeepNOG und VOGDB
Publikationsjahr
2021
Umfangsangabe
xi, 75 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Thomas Rattei
Klassifikationen
42 Biologie > 42.13 Molekularbiologie ,
54 Informatik > 54.80 Angewandte Informatik
AC Nummer
AC16536244
Utheses ID
61962
Studienkennzahl
UA | 066 | 910 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1