Detailansicht

Measuring quality of unsupervised learning
evaluation of density-based clustering
Marcus Artner
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Data Science
Betreuer*in
Claudia Plant
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.77295
URN
urn:nbn:at:at-ubw:1-29127.58958.668496-2
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Es ist trotz bereits entsprechender existierende Evaluationsmetriken eine große Herausforderung, die Qualität eines Clusterings zu bestimmen, welches dichtebasierte Cluster enthält. Dies lässt sich auf individuelle Schwächen in der Konstruktion der bereits existierenden Maße, als auch auf die inhärente Komplexität der Thematik zurückführen. In dieser Arbeit zerlegen wir drei bestehende dichtebasierte Metriken in ihre wesentlichen Bestandteile und überführen diese in ein vereinheitlichtes Framework, welches intuitive Vergleiche zulässt. Diese Metriken werden gemeinsam mit dem kürzlich entwickelten "Density-based Internal Evaluation Score for Clustering Outcomes" (DISCO) in einer Reihe von Experimenten ausführlich getestet. Die gewonnenen Erkenntnisse dienen dazu, eine Sammlung von "real-world", dichtebasierten Datensätzen zu identifizieren, welche in dieser Form bisher nicht existiert, jedoch erheblich für die Weiterentwicklung und Verbesserung dichtebasierter Clustering-Methoden ist. Weiters zeigen wir, dass eine Dimensionalitätsreduktion mittels UMAP unvorhersehbare Auswirkungen auf die strukturellen Eigenschaften dieser Datensätze haben kann. Darüber hinaus erstellen wir einen Medium-Blogpost, der DISCO anhand praktischer Beispiele und intuitiver Erklärungen vorstellt, um es einem breiteren Publikum zugänglich zu machen.
Abstract
(Englisch)
Despite the existence of appropriate evaluation metrics, it remains a significant challenge to assess the quality of a clustering that contains density-based clusters. This can be attributed to both individual weaknesses in the design of existing measures as well as the inherent complexity of the subject. In this work, we break down three existing density-based metrics into their core components and integrate them into a unified framework that allows for intuitive comparisons. These metrics, along with the recently developed Density-based Internal Evaluation Score for Clustering Outcomes (DISCO), are thoroughly tested in a series of experiments. The insights gained from these experiments are used to identify a collection of real-world, density-based datasets, which does not yet exist in this form but is crucial for advancing and improving density-based clustering methods. Furthermore, we show that dimensionality reduction using UMAP can have unpredictable effects on the structural properties of these datasets. Additionally, we create a Medium blog post that introduces DISCO with practical examples and intuitive explanations, making it accessible to a broader audience.

Schlagwörter

Schlagwörter
(Deutsch)
dichtebasiertes clustering
Schlagwörter
(Englisch)
density-based clustering density-connectivity unsupervised learning
Autor*innen
Marcus Artner
Haupttitel (Englisch)
Measuring quality of unsupervised learning
Hauptuntertitel (Englisch)
evaluation of density-based clustering
Publikationsjahr
2024
Umfangsangabe
xi, 49 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Claudia Plant
Klassifikation
54 Informatik > 54.99 Informatik. Sonstiges
AC Nummer
AC17393234
Utheses ID
73403
Studienkennzahl
UA | 066 | 645 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1