Detailansicht

Design and implementation of a machine learning workflow for the Ligandscout API for the analysis of molecular datasets with pharmacophores
Daniel Rose
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Physik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Computational Science
Betreuer*in
Thierry Langer
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.73865
URN
urn:nbn:at:at-ubw:1-13681.41452.817972-5
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Pharmacophore bieten eine abstrakte Beschreibung der Interaktion zwischen Liganden und deren Zielprotein. Sie sind ein etabliertes Werkzeug im Computer-gestützten Wirkstoffdesign (CADD) und werden seit vielen Jahren im virtuellen Screening eingesetzt. Maschinelles Lernen (ML) wird regelmäßig im Wirkstoffdesign genutzt, um zum Beispiel die Bioaktivität von kleinen Molekülen hervorzusagen. Hierfür werden ML-Modelle in der Regel auf molekularen Strukturen trainiert, die Pharmacophordarstellung wird hierfür seltener verwendet. Da Pharmacophore für die Beschreibung von Interaktionen konzipiert sind, sollten sie einen nützlichen Input für ML-Modelle zur Bioaktivitätvorhersage darstellen. Das Ziel dieser Arbeit war die Entwicklung eines Frameworks, um ML-Methoden für CADD benutzerfreundlich und leicht zugänglich anzubieten. LigandScout ist eine Software für computergestütztes Wirkstoffdesign und nutzt 3D Pharmacophormodellierung für das Durchsuchen großer Moleküldatenbanken. Im Folgenden wird das Design und die Implementierung eines Java Moduls vorgestellt, um einen ML-Workflow in die LigandScout API einzubetten. Der Workflow beinhaltet Methoden zur Featuredarstellung chemischer Datensätze, für das Trainieren von ML-Modellen und das Einstellen derer Hyperparameter. Aktuell enthält der Workflow Algorithmen für Support Vector Machines, eine Erweiterung mit weiteren Modellen ist jederzeit möglich. Die Methoden zur Featuredarstellung basieren sowohl auf dem Molekülgraphen als auch auf LigandScout Pharmacophoren. Der eingebettete Workflow wurde getestet, indem binäre Klassifikationsmodelle auf verschiedenen Bioaktivitätsdatensätzen trainiert wurden. Auch wenn die molekularen Fingerprintmethoden die Pharmacophor-basierten derzeit übertreffen, scheint es viel Potential für deren Verbesserung zu geben. Der vorgestellte Workflow könnte LigandScout Nutzern ein zusätzliches Werkzeug für das Durchsuchen von Moleküldatenbanken und die Verfeinerung von Hitlisten bieten.
Abstract
(Englisch)
Pharmacophores provide an abstract description of the ligand-target interaction. They are an established tool in computer-aided drug design (CADD) and have been used in virtual screening for many years. Machine learning (ML) is commonly used in drug design, e.g. for the prediction of the bioactivity of small molecules. For this purpose, ML models are often trained on molecular structures; using the pharmacophore representation is less common. However, since pharmacophores inherently describe interactions, they should present a useful input to train ML models for bioactivity prediction. The goal of this work was to develop a framework that would provide ML methods for CADD in a user-friendly and accessible way. LigandScout is a computational drug design software that employs 3D pharmacophore modeling for screening large molecular databases. Herein, the design and implementation of a Java module for integrating a ML workflow into the LigandScout API is presented. The workflow includes featurization of chemical datasets, training of ML models, and tuning of hyper parameters for model selection. The package currently contains algorithms for support vector machines, but can easily be extended with additional models. In addition, it offers featurization techniques based on both the molecular graph and LigandScout pharmacophores. The integrated workflow was tested by training binary classification models on three different bioactivity datasets. Although the molecular fingerprints outperformed the pharmacophore fingerprints, there appeared to be much potential for further improvements. The presented workflow could provide LigandScout users with an additional tool for virtual screening and the refinement of virtual screening hit lists.

Schlagwörter

Schlagwörter
(Deutsch)
Maschinelles Lernen Pharmacophor LigandScout API Design Wirkstoffdesign Datenanalyse
Schlagwörter
(Englisch)
Machine Learning Pharmacophore LigandScout API Design Drug Design Data Analysis
Autor*innen
Daniel Rose
Haupttitel (Englisch)
Design and implementation of a machine learning workflow for the Ligandscout API for the analysis of molecular datasets with pharmacophores
Paralleltitel (Deutsch)
Design und Implementierung eines Machine Learning Workflows für die Ligandscout API zur Analyse molekularer Datensätze mit Pharmacophoren
Publikationsjahr
2023
Umfangsangabe
VII, 48 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Thierry Langer
Klassifikationen
35 Chemie > 35.06 Computeranwendungen ,
54 Informatik > 54.80 Angewandte Informatik
AC Nummer
AC16878600
Utheses ID
67319
Studienkennzahl
UA | 066 | 910 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1