Detailansicht

Hubness in the protein sequence universe
Roman Vinzenz Feldbauer
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Lebenswissenschaften
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Doctor of Philosophy-Doktoratsstudium NAWI Bereich Lebenswissenschaften (Dissertationsgebiet: Biologie)
Betreuer*in
Thomas Rattei
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.64427
URN
urn:nbn:at:at-ubw:1-22802.27028.804960-4
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
In dieser Arbeit wird der Einfluss von „Hubness“ auf das Proteinsequenzuniversum untersucht. Proteine sind essentielle Biomoleküle, die wichtige Rollen in allen zellulären Prozessen übernehmen. Ein Großteil aller bioinformatischen Experimente zu Proteinen operieren auf Ebene der Aminosäuresequenzen, und benötigen ein Maß für Sequenzähnlichkeit. Die Gesamtheit aller Proteine wird als Proteinsequenzuniversum bezeichnet. „Hubness“ ist ein Phänomen hochdimensionaler Räume, das eine Vielzahl von Methoden des maschinellen Lernens negativ beeinflussen kann. Das Phänomen wurde ursprünglich im Kontext von Musikähnlichkeitsdatenbanken beschrieben. Rezente Forschung erkennt Hubness hingegen als eine generelle Eigenschaft intrinsisch hochdimensionaler Räume, die Daten in verschiedensten Anwendungsdomänen beeinflusst, darunter Zeitreihenanalyse oder die Verarbeitung natürlicher Sprache in der Computerlinguistik. Vor diesem Hintergrund wird die Hypothese aufgestellt, dass auch biologische Fragestellungen negativ durch Hubness beeinflusst werden, beispielsweise die Klassifizierung oder Clusteranalyse von Proteinsequenzen. Eine umfassende Evaluierung von Hubness-Reduktionsmethoden zeigt auf, welche dieser Methoden besonders für die Verbesserung von maschinellem Lernen geeignet sind. Die Entwicklung approximativer Methoden mit linearer Zeit- und Platzkom- plexität ermöglicht die Anwendung von Hubnessanalyse und -reduktion in großen Datenbanken. Diese und weitere Methoden werden im freien Softwarepaket „scikit- hubness“ für Python implementiert. Hubnessanalyse und -reduktion werden dadurch leichter zugängliche Bestandteile von maschinellem Lernen in Forschung und Anwendung. Darüberhinaus wird deep learning genutzt, um Proteinsequenzvektorrepräsentationen und Modelle zur Zuordnung von Sequenzen zu orthologen Gruppen zu lernen. Abschließend wird mittels der entwickelten Methodologie Hubness in Sequenzähnlichkeitsdatenbanken und den gelernten Vektorräumen untersucht. Reduktion von Hubness bewirkt nur geringe Effekte in Klassifzierungs- und Clusterexperimenten. Hingegen ermöglicht deep learning schnelle und akkurate Zuordnung zu orthologen Gruppen. Zukünftige Arbeit könnte weiter verbesserte Proteinsequenzrepräsentationen hervorbringen, mit denen akkurate Sequenzähnlichkeitssuche in sublinearer Zeit ermöglicht würde. Dadurch könnte das zentrale Problem des hohen Ressourcenbedarfs für Suche in immer weiter wachsenden Sequenzdatenbanken gelöst werden.
Abstract
(Englisch)
This work investigates the influence of “hubness” on the protein sequence universe. Proteins are important biomolecules that play major roles in virtually all cellular functions. A vast majority of bioinformatic experiments on proteins are performed on the level of amino acid sequences, and rely on some measure of sequence similarity. The entirety of all extinct, extent, and possible protein sequences is referred to as the protein sequence universe. Hubness is a phenomenon of high-dimensional spaces, detrimental to a variety of machine learning tasks. Originally described in music similarity databases, hubness has since been recognized as a general “curse of dimensionality”, relevant to various application domains, including time series analysis, and natural language processing. Hubness is, consequently, hypothesized to be detrimental to biological tasks, such as sequence classification or clustering. Hubness reduction methods are comprehensively evaluated with respect to learning performance improvements. Approximate methods with linear space and time complexity are developed, facilitating hubness analysis and reduction in large data- bases. The free open source software package “scikit-hubness” for Python implements these methods to make hubness analysis and reduction available to machine learning researchers and practitioners. In addition, deep networks are used to learn protein sequence vector representations, and investigated for orthologous group inference. Finally, hubness is analyzed in sequence similarity databases and learned vector spaces using the developed methodology. While there is little evidence of improvements caused by hubness reductions, deep learning enables fast and accurate protein orthologous group inference. In the future improved protein representations could eventually allow for accurate sublinear time sequence similarity search, which would alleviate the computational bottleneck of search in ever-growing sequence databases.

Schlagwörter

Schlagwörter
(Englisch)
hubness proteins machine learning deep learning sequence search orthology bioinformatics computational biology
Schlagwörter
(Deutsch)
Hubness Proteine Maschinelles Lernen Deep Learning Sequenzsuche Orthologie Bioinformatik
Autor*innen
Roman Vinzenz Feldbauer
Haupttitel (Englisch)
Hubness in the protein sequence universe
Paralleltitel (Deutsch)
Hubness im Proteinsequenzuniversum
Publikationsjahr
2020
Umfangsangabe
viii, 151 Seiten : Illustrationen, Diagramme
Sprache
Englisch
Beurteiler*innen
Josef Hochreiter ,
David Philip Kreil
Klassifikationen
30 Naturwissenschaften allgemein > 30.03 Methoden und Techniken in den Naturwissenschaften ,
30 Naturwissenschaften allgemein > 30.30 Naturwissenschaften in Beziehung zu anderen Fachgebieten ,
42 Biologie > 42.10 Theoretische Biologie ,
42 Biologie > 42.30 Mikrobiologie ,
54 Informatik > 54.72 Künstliche Intelligenz ,
54 Informatik > 54.74 Maschinelles Sehen
AC Nummer
AC15756129
Utheses ID
57167
Studienkennzahl
UA | 794 | 685 | 437 |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1