Detailansicht

Anomaly detection in chemical space
Matthias Welsch
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Physik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Computational Science
Betreuer*in
Nils Morten Kriege
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.73744
URN
urn:nbn:at:at-ubw:1-17708.28915.701457-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Während Klassifikation von Chemikalien ein wohletabliertes Feld ist, gibt es wenige Arbeiten zu Anomaliedetektion und viele davon beschäftigen sich nicht damit wie eine Anomalie aussieht. Es gibt vier zentrale Probleme in der Anomaliedetektion: Unbekanntheit, Unähnlichkeit, Seltenheit, und Unregelmäßigkeit, aber viele Definitionen für Anomalie beschäftigen sich nicht mit all diesen Problemen. Diese Arbeit formalisiert diese vier Probleme und erstellt chemische Datensätze basierend auf diesen Herausforderungen. Die Datensätze werden mit Klassifikationsverfahren getestet, um zu zeigen, dass es Algorithmen gibt, die eine Entscheidungsgrenze zwischen normalen und anormalen Datenpunkten ziehen können. Es werden Anomaliedetektiontechniken, die auf verschiedenen Paradigmen beruhen, mit den erstellten Datensätzen getestet, allerdings schaffen es diese Algorithmen nicht Anomalien korrekt zu identifizieren. Eine neue Anomaliedetektionsmethode wird konstruiert, die in der Lage ist die erstellten Datensätze zu lösen. Dies zeigt, dass die Datensätze in einem Anomaliedetektionskontext verwendbar sind, wenn der Algorithmus die richtigen Merkmale auswählt.
Abstract
(Englisch)
Whilst classification of chemical compounds is a well-established field, there have been few works on anomaly detection, and many do not explicitly specify what a chemical anomaly is. In general, there are four key problems in anomaly detection: unknowness, unlikeness, rarity, and irregularity, but many definitions of chemical anomalies do not tackle all of these challenges. The four problems of anomaly detection are formalized and based on these issues benchmark anomaly detection tasks are compiled. Furthermore, the datasets are analysed by performing classification experiments to ensure that algorithms are able establish a decision boundary between inliers and anomalies. For balanced training sets, classification does not pose a problem. Anomaly detection techniques based on different paradigms are selected and the datasets are tested. These algorithms are unable to correctly identify anomalies. A novel anomaly detection technique based on frequent pattern mining is devised that is able to solve the tasks. This shows that the datasets are feasible in an anomaly detection setting, if the correct features are selected.

Schlagwörter

Schlagwörter
(Deutsch)
Anomaliedetektion Chemieinformatik
Schlagwörter
(Englisch)
Anomaly detection Cheminformatics One-class classification Outlier detection
Autor*innen
Matthias Welsch
Haupttitel (Englisch)
Anomaly detection in chemical space
Paralleltitel (Deutsch)
Anomaliedetektion im chemischen Raum
Publikationsjahr
2023
Umfangsangabe
41 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Nils Morten Kriege
Klassifikationen
35 Chemie > 35.06 Computeranwendungen ,
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC16872973
Utheses ID
67113
Studienkennzahl
UA | 066 | 910 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1