Detailansicht

Accelerating molecular and materials design with machine learning
Dominik Lemm
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Physik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Doktoratsstudium NAWI aus dem Bereich Naturwissenschaften (DissG: Physik)
Betreuer*innen
Otto Anatole von Lilienfeld-Toal ,
Cesare Franchini
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.75141
URN
urn:nbn:at:at-ubw:1-20207.72582.176987-0
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Das Design neuartiger Verbindungen und Materialien spielt eine wichtige Rolle bei der Bewältigung von Krisen wie Krankheiten, Klimawandel und Energiemangel. Die computergestützte Entwicklung neuer Verbindungen auf der Grundlage von quantenchemischen Simulationen in Verbindung mit dem transformativen Einflusses des Machine Learnings (ML) verspricht, den Entwicklungsprozess zu beschleunigen. Allerdings machen die dünne Datenlage, die hohe Anzahl an chemischen Verbindungen und die Komplexität der zugrundeliegenden Physik das inverse Problem des Molekular- und Materialdesigns zu einer anspruchsvollen Herausforderung. Ziel dieser Arbeit ist die Beschleunigung des computergestützten Molekular- und Materialdesigns durch verbesserte Strukturgenerierung, Auswahl von Trainingsdaten und Aufklärung von Molekülstrukturen mittels physikalisch inspiriertem ML. Die Forschungsfragen, die in dieser Arbeit behandelt werden, sind im Einzelnen: 1) Kann ein ML-Modell für eine schnelle, genaue und zuverlässige 3D-Strukturvorhersage auch für unkonventionelle chemische Räume entwickelt werden? 2) Kann die Entscheidungsfindung und die Auswahl von Trainingsdaten in dünnen Datenlagen verbessert werden? 3) Kann die Erfolgsquote von computergestützter Strukturaufklärung von Kernspinresonanzspektroskopie (NMR) Experimenten gesteigert werden? Zunächst wurde das Graph-To-Structure ML-Modell entwickelt, um 3D-Strukturen von organischen Molekülen, Übergangszuständen und Festkörpern allein anhand chemischer Graphen vorherzusagen. Die Anwendbarkeit von Graph-To-Structure wird a) als verbesserte Anfangsannahme für ab initio Simulationen, b) als Input für nachgelagerte Modelle zur vorhersage von Quanteneigenschaften und c) als Ersatzmodell für physikalisch inspirierte ensemblegemittelte ML demonstriert. Zweitens wird ein auf Ähnlichkeit basierendes ML-Framework vorgeschlagen, um Trainingsdaten on-the-fly auszuwählen. Zu den Demonstrationen gehören das auf Quantenmechanik basierende molekulare Design und die Planung der organischen Synthese sowie die Anwendbarkeit über die Chemie hinaus in der wirtschaftlichen Entscheidungsfindung. Schließlich wurde das inverse Problem der Aufklärung einer Verbindung aus einem NMR-Spektrum analysiert. Zu den Experimenten gehören systematische Einschränkungen des chemischen Suchraums, die Auswirkung von Rauschen auf den Aufklärungserfolg sowie die Kombination von 13C und 1H-Spektren zur Reduzierung von Mehrdeutigkeiten. Zur Unterstützung der Community des computergestützten Substanzdesigns wurde die Webseite Leruli.com entwickelt, die sowohl als praktisches Werkzeug für Experten als auch als Einstieg für neue Studierende auf diesem Gebiet dienen soll. Zusammenfassend lässt sich sagen, dass diese Arbeit einen kollektiven Einblick in die Anwendungen von ML für relevante und herausfordernde Aufgaben im computergestützten Molekular- und Materialdesign bietet.
Abstract
(Englisch)
The design of novel compounds and materials is a critical challenge in addressing imminent threats such as disease, climate change, and energy crises. Computational compound design based on first principles quantum chemical simulations coupled with the transformative impact of machine learning (ML) holds the promise to accelerate the discovery process. However, the data sparsity, the vastness of chemical compound space and the complexity of the underlying physics make the inverse problem of molecular and materials design a demanding challenge. The aim of this thesis is to accelerate computational compound design through improved structure generation, training set selection and molecular structure elucidation using physics inspired ML. Specifically, the research questions addressed in this thesis are: 1) Can a ML model for fast, accurate and reliable 3D structure prediction be developed even for unconventional chemical spaces? 2) Can the decision making and training set selection in small data regimes be improved? 3) Can the success of computational structure elucidation in nuclear magnetic resonance (NMR) experiments be increased? First, the Graph-To-Structure ML model has been developed to predict 3D structures of organic molecules, transition states, and solids solely based on graph inputs. The usefulness of Graph-To-Structure is shown as an a) improved initial guess for ab initio simulations, b) input for downstream models for quantum properties and c) surrogate model for physics inspired ensemble averaged ML. Second, a query aware similarity based ML framework is proposed to select training points on-the-fly. Demonstrations include quantum mechanics based molecular design and organic synthesis planning, as well as applicability beyond chemistry in economical decision making. Finally, the inverse problem of identifying a compound from an NMR spectrum has been analysed. Experiments include systematic constraints on chemical search space, the effect of noise on the elucidation success, as well as combining 13C and 1H spectra to reduce ambiguity. To support the computational compound design community, the web-page Leruli.com has been developed to serve as a convenient tool for experts, as well as an entry for new students in the field. In summary, this thesis provides a collective insight in applications of ML to relevant and challenging tasks in computational molecular and materials design.

Schlagwörter

Schlagwörter
(Deutsch)
Maschinelles Lernen Quantenchemie Design chemischer Verbindungen Materialentdeckung Moleküldesign Künstliche Intelligenz
Schlagwörter
(Englisch)
Machine Learning Quantum Chemistry Chemical Compound Design Material Discovery Molecular Design Artifical Intelligence
Autor*innen
Dominik Lemm
Haupttitel (Englisch)
Accelerating molecular and materials design with machine learning
Paralleltitel (Deutsch)
Beschleunigung des Molekular- und Materialdesigns mit maschinellem Lernen
Publikationsjahr
2023
Umfangsangabe
xxv, 210 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*innen
Tristan Bereau ,
Volker Deringer
Klassifikationen
35 Chemie > 35.06 Computeranwendungen ,
35 Chemie > 35.10 Physikalische Chemie. Allgemeines ,
35 Chemie > 35.11 Quantenchemie. chemische Bindung ,
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC17053444
Utheses ID
68072
Studienkennzahl
UA | 796 | 605 | 411 |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1