Detailansicht

Benchmarking in cluster analysis - insights into theory and application
Rainer Dangl
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Dr.-Studium der technischen Wissenschaften (DissG: Informatik)
Betreuer*innen
Marcus Hudec ,
Friedrich Leisch
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.70218
URN
urn:nbn:at:at-ubw:1-11180.07358.760541-7
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Die Dissertation behandelt das Thema Benchmarking in der Clusteranalyse aus zwei Perspektiven. Einerseits wurde eine Benchmarkingstudie zu einer konkreten Fragestellung durchgeführt, und zwar ob stabilitätsorientierte Validierung von Clusteringmodellen einen entscheidenden Vorteil im Vergleich zu einfacher Validierung bietet und wenn ja, ob die Art und Weise des Ziehens der Resampling-Datensätze aus dem Gesamtdatensatz eine Rolle spielt. Diese Fragestellungen wurden im Zusammenhang mit interner und externer Modellvalidierung untersucht. Ergebnisse der Studie zeigen, dass resampling-basierte externe Validierung tendentiell bessere Resultate liefert. Erkenntnisse aus der Durchführung der Studie zogen Überlegungen zu grundlegenden Konzepten zur Durchführung von Benchmarkingstudien nach sich. Es wurde daher ein struktureller Rahmen zur Implementation von Benchmarking in R generell erstellt und weiters ein R Paket und eine Webapplikation zu einem spezifischen Teilaspekt des Benchmarkings, der Erzeugung von künstlichen Daten.
Abstract
(Englisch)
The doctoral thesis covers the topic of benchmarking in cluster analysis from two perspectives. On the one hand, a benchmarking study was conducted on a specific issue, namely whether stability-oriented validation of clustering models offers a decisive advantage over simple validation and, if so, whether the way of extracting the resampling data sets from the overall data set plays a role. These questions were investigated in the context of internal and external model validation. Findings from the study show that resampling-based external validation tends to yield better results. Lessons learned from the implementation of the study led to considerations on basic concepts for the implementation of benchmarking studies. Therefore, a structural framework for the implementation of benchmarking in R in general was established and furthermore an R package and a web application for a specific aspect of benchmarking, the generation of artificial data, was developed.

Schlagwörter

Schlagwörter
(Englisch)
Benchmarking Cluster Analysis Machine Learning Unsupervised Learning Model Validation Artificial Data
Schlagwörter
(Deutsch)
Benchmarking Clusteranalyse Maschinelles Lernen Unüberwachtes Lernen Modellvalidierung Künstliche Daten
Autor*innen
Rainer Dangl
Haupttitel (Englisch)
Benchmarking in cluster analysis - insights into theory and application
Publikationsjahr
2021
Umfangsangabe
146 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*innen
Berthold Lausen ,
Matthias Templ
Klassifikation
54 Informatik > 54.99 Informatik: Sonstiges
AC Nummer
AC16465805
Utheses ID
60157
Studienkennzahl
UA | 786 | 880 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1