Detailansicht
Machine learning-driven prediction of molecular activity using pharmacophore-based fingerprints
Sofiia Bolkhovetska
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Physik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Computational Science
Betreuer*in
Thierry Langer
Mitbetreuer*in
Thomas Seidel
DOI
10.25365/thesis.75902
URN
urn:nbn:at:at-ubw:1-29828.65117.278375-2
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Die Fähigkeit, Moleküle anhand ihrer Aktivität gegenüber bestimmten Targets zu differen- zieren oder ihr physikochemisches Verhalten mithilfe moderner Rechenleistung vorherzus- agen, gewinnt immer mehr an Bedeutung. Maschinelles Lernen (ML)-basierte Modelle können molekulare Eigenschaften präzise vorhersagen und somit den Prozess der Wirk- stoffentwicklung beschleunigen. Diese Modelle basieren stark auf molekularen Fingerab- drücken, die Informationen über die Moleküle in numerische Darstellungen kodieren. Diese Masterarbeit befasst sich mit der Entwicklung und Anwendung pharmako- phorbasierter Fingerabdrücke, die mit CDPKit generiert wurden. Es wurde ein um- fassender Satz von 432 einzigartigen pharmakophorbasierten Fingerabdrücken generiert, der anpassbare Parameter wie Distanztyp, Bitstring-Größe, Featurekombinationen, Bin- Größe und Bindungszählmethoden bietet. Es wurde gezeigt, dass eine größere Bitstring-Größe und kleinere Molekülmassen im Datensatz die Kollisionswahrscheinlichkeit verringern und dadurch Informationsverlust verhindern. Darüber hinaus betonte die Variabilität der Tanimoto-Koeffizienten je nach Fingerabdruck ihre relative Natur und die Bedeutung maßgeschneiderter Schwellenwerte. Zusätzlich wurden die pharmakophorbasierten Fingerabdrücke für das Training von ML-Klassifikatoren und Regressoren wie SVM, DT, RF und XGB auf vier verschiedenen Datensätzen verwendet. Die Leistung der pharmakophorbasierten Fingerabdrücke wurde mit den etablierten Morgan- und Daylight-Fingerabdrücken verglichen. Darüber hinaus wurden die Leistung der ML-Algorithmen und die Wichtigkeit der Hyperparameter bei der Klassifizierungsaufgabe auf dem BACE-Datensatz analysiert. Zusammenfassend wurde gezeigt, dass pharmakophorbasierte Fingerabdrücke vielver- sprechend sind, jedoch weitere Untersuchungen erforderlich sind, um einflussreiche Para- meter für eine optimale Leistung festzulegen.
Abstract
(Englisch)
The capability to differentiate molecules based on their activity towards specific targets or to predict their physicochemical behaviour using modern computational power is increasingly significant. Machine-learning (ML) based models can accurately predict molecular properties and thus accelerate the drug development process. These models rely heavily on molecular fingerprints which encode information about the molecules into numerical representations. This master’s thesis present the development and application of pharmacophore-based fingerprints generated using CDPKit. A comprehensive set of 432 unique pharmacophore- based fingerprints was generated, offering customizable parameters such as distance type, bitstring size, feature combinations, bin size, and bond counting methods. It was shown that larger bitstring size and smaller molecular masses in the dataset decrease the collision probability, thereby preventing information loss. Furthermore, the variability of Tanimoto coefficient values depending on the fingerprint highlighted its relative nature and importance of tailored threshold values. Additionally, the pharmacophore-based fingerprints were used for training ML clas- sifiers and regressors, such as SVM, DT, RF and XGB across four different datasets. The performance of pharmacophore-based fingerprints was compared against the well- established Morgan and Daylight fingerprints. Moreover, ML algorithms performance and hyperparameter importance were analyzed in the classification task on the BACE dataset. In conclusion, it was demonstrated that pharmacophore-based fingerprints are promising, but further research is needed to establish influential parameters for optimal performance.
Schlagwörter
Schlagwörter
(Deutsch)
Maschinelles Lernen Cheminformatik Vorhersage molekularer Aktivität
Schlagwörter
(Englisch)
Machine Learning Cheminformatics Molecular activity prediction
Autor*innen
Sofiia Bolkhovetska
Haupttitel (Englisch)
Machine learning-driven prediction of molecular activity using pharmacophore-based fingerprints
Publikationsjahr
2024
Umfangsangabe
xiii, 53 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Thierry Langer
AC Nummer
AC17193287
Utheses ID
71301
Studienkennzahl
UA | 066 | 910 | |