Detailansicht

PICA-to-go - a fast microbial phenotype investigation pipeline
Florian Piewald
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Lebenswissenschaften
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Bioinformatik
Betreuer*in
Thomas Rattei
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.54915
URN
urn:nbn:at:at-ubw:1-18775.28706.472666-7
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Nachdem die Anzahl an komplett sequenzierten bakteriellen Spezies steigt, wird die Analyse der Phänotypen dieser Spezies zu einem Bottleneck innerhalb der Wissenschaft. In der Vergangenheit wurden Machine Learning-Tools verwendet, um diesem Problem Herr zu werden. Das PICA Framework, das mit Support Vector Maschinen arbeitet, ist ein Beispiel für solch ein Tool. Allerdings benötigt PICA Informationen bezüglich der ’cluster of orthologous groups’ (COGs) in jeder Spezies (auch Bin genannt), welche für das Training bzw. für die Vorhersage verwendet wird. In unserer Arbeitsgruppe wurde für diesen Zweck in vergangenen Projekten HMMER verwendet, um die eggNOG Datenbank zu durchsuchen. Diese Herangehensweise ist allerdings limitiert für Wissenschaftler, welche Zugriff zu einem Hochleistungs-Computer-Cluster haben und benötigt zudem einen beträchtlichen Zeitaufwand. Ich stelle eine neue Herangehensweise vor (PICA-to-go), welche das Clustering-Toolset von MMSeqs2 in Verbindung mit dem PICA Framework nutzt. Ein Modell für Ciprofloxacin-Resistenz in Acinetobacter baumannii kann so mit einer Genauigkeit von 0.93 in weniger als zehn Minuten auf einem gewöhnlichen PC trainiert werden.
Abstract
(Englisch)
As the number of completely sequenced bacterial species grows, analyzing the phenotypes of these species becomes a bottleneck in science. Machine learning tools have been used in the past to cope with this problem. The PICA framework is an example of such a tool, using support vector machines. PICA, however, needs information about the clusters of orthologous groups (COGs) in each species (also known as bin) to be trained/predicted. In previous work of our group, HMMER searching in the eggNOG database, was used for this purpose. The usage of this approach is limited to researchers with access to a high performance computing cluster and takes a considerably amount of time. I present a new approach (PICA-to-go) using the clustering suite of MMSeqs2 together with the PICA framework. A model for ciprofloxacin resistance in Acinetobacter baumannii with a balanced accuracy of 0.93 can be trained in less than 10 minutes on an ordinary desktop machine.

Schlagwörter

Schlagwörter
(Englisch)
Bioinformatics Machine learning phenotype prediction PICA Support Vector Machines Microbiology computational systems biology
Schlagwörter
(Deutsch)
Bioinformatik Machine learning Phänotyp Vorhersage PICA Support Vector Maschinen Mikrobiologie computergestützte Systembiologie
Autor*innen
Florian Piewald
Haupttitel (Englisch)
PICA-to-go - a fast microbial phenotype investigation pipeline
Paralleltitel (Deutsch)
PICA-to-go : eine performante mikrobielle Phänotyp-Ermittlungs-Pipeline
Publikationsjahr
2018
Umfangsangabe
71 Seiten : Diagramme
Sprache
Englisch
Beurteiler*in
Thomas Rattei
Klassifikationen
42 Biologie > 42.30 Mikrobiologie ,
54 Informatik > 54.52 Software engineering ,
54 Informatik > 54.72 Künstliche Intelligenz ,
54 Informatik > 54.99 Informatik: Sonstiges
AC Nummer
AC15550669
Utheses ID
48537
Studienkennzahl
UA | 066 | 875 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1