Detailansicht
Tool for visual cluster analysis and consensus clustering
Christian Permann
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Informatik
Betreuer*in
Claudia Plant
DOI
10.25365/thesis.62440
URN
urn:nbn:at:at-ubw:1-12291.69699.536374-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Eine gute Clustering Lösung für wenig erforschte Daten zu finden ist eine komplexe Aufgabe. Wegen der großen Anzahl an Clustering Algorithmen, welche meist auch viele verschiedene Parameter benötigen, können sich die Ergebnisse stark untereinander, aber auch von dem richtigen Ergebnis, unterscheiden. Mit nur wenig Wissen über die Daten ist auch die Evaluierung welches Ergebnis am nähersten zu der der unterliegenden Wahrheit, beziehungsweise am besten der Struktur der Daten entspricht, eine schwere Aufgabe. Um eine solche Auswahl besser treffen zu können wurden visuelle Frameworks erschaffen, die meist mittels Qualitäts-Metriken die verschiedenen Ergebnisse bewerten und gereiht anzeigen. Da diese Metriken aber auch das Problem haben gewisse Strukturen in Ergebnissen zu bevorzugen zeigen sie sich wiederum bei der Entscheidung über das endgültige Ergebnis als problematisch. Aus diesem Grund schlage ich vor die Eigenschaft wie robust ein Ergebnis ist für die finale Entscheidung heranzuziehen. Um dies zu tun werden die Clusterings auf Meta-Ebene nochmals geclustert, wobei ähnliche Ergebnisse in einer Gruppe mittels Consensus Clustering zu einer Lösung zusammengeführt werden. Dieser Prozess wird weiters durch Visualisierungen unterstützt, so dass ein Experte mit Hilfe seines Wissens die Lösung möglicherweise noch weiter verbessern kann.
Abstract
(Englisch)
Finding a good clustering solution for an unexplored data-set is a non-trivial task. Due to the large number of clustering algorithms that usually have lots of parameters, clustering results may differ strongly from each other and the underlying ground truth. With only little knowledge on the data the evaluation of which result best represents the underlying cluster structure is difficult. To find a fitting selection for this choice, different visual frameworks exist that aim to simplify this choice, usually by ranking the results according to quality measures. As those measures also have the downside of being biased towards specific structures (whether or not they fit the data) they are problematic for selecting a final result. For this reason, I propose to purely use indicators of robustness for the creation or selection of a clustering result. This is done by meta-clustering results from different clustering algorithms and calculating consensus clusterings from groups of similar clusterings. Additionally, this process is supported through visualizations, giving the expert user the possibility to use his knowledge to further improve on the final result.
Schlagwörter
Schlagwörter
(Englisch)
Clustering Consensus Visualization Tool
Schlagwörter
(Deutsch)
Clustering Konsens Visualizierung Tool
Autor*innen
Christian Permann
Haupttitel (Englisch)
Tool for visual cluster analysis and consensus clustering
Paralleltitel (Deutsch)
Tool zur visuellen Analyse von Clustern und Consensus Clustering
Publikationsjahr
2020
Umfangsangabe
80 Seiten
Sprache
Englisch
Beurteiler*in
Claudia Plant
Klassifikationen
54 Informatik > 54.81 Anwendungssoftware ,
54 Informatik > 54.99 Informatik: Sonstiges
AC Nummer
AC16118648
Utheses ID
55194
Studienkennzahl
UA | 066 | 921 | |
