Detailansicht
Design and development of a BANG-file clustering system
Florian Fritz
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Wirtschaftsinformatik
Betreuer*in
Erich Schikuta
DOI
10.25365/thesis.51675
URN
urn:nbn:at:at-ubw:1-29850.02915.949176-0
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Die Clusteranalyse spielt eine zentrale Rolle in der explorativen Datenanalyse. Das Balanced And Nested Grid (BANG) File ist ein hierarchisches Clustering-Verfahren des Typs Grid-File.
Um riesige Datenmengen effektiv zu clustern bildet das BANG File eine mehrdimensionale Raster-Struktur, welche Daten gruppiert.
Der Datenraum wird dabei durch kontinuierliches zweiteilen, orthogonal zu einer der Dimensionen, in Regionen gegliedert.
Diese Regionen werden in einem Verzeichnis indexiert, welches die Eigenschaften eines balancierten Baums bietet.
Anders als bisherige Grid-File Designs wächst dieses Verzeichnis dadurch proportional zu den Daten, unabhängig von der Verteilung der Daten.
Die hierarchische Partitionierungsstrategie spiegelt Cluster im Datenraum wider, wobei Regionen mit den höchsten Dichten an Daten als Zentrum eines Clusters identifiziert werden.
Diese Arbeit demonstriert das BANG File Clustering-Verfahren innerhalb einer eigenständigen Java Anwendung und auch als ein WEKA Plugin.
Abstract
(Englisch)
Cluster analysis is essential in the field known as explorative data analysis.
The Balanced And Nested Grid (BANG) file is a hierarchical clustering system of the grid file type.
To efficiently cluster massive data sets the BANG file uses a multidimensional grid structure to organize the value space surrounding pattern values.
Its tree structured directory partitions the value space into regions with successive binary divisions on dimensions, which results in self-balancing features of a B-tree.
Consequently, unlike previous grid file designs, the directory expands proportionally to the data regardless of the data distribution.
The partitioning strategy accurately reflects the clustering of patterns in the value space, with densely populated regions identified as cluster centers, and adapts to changes in the distribution.
This thesis concludes with a demonstration of the BANG file clustering system both as a standalone Java application as well as a WEKA package.
Schlagwörter
Schlagwörter
(Englisch)
Cluster Analysis Data Analysis Hierarchical Clustering Balanced And Nested Grid BANG-File Grid-File Weka Package GRIDCLUS
Schlagwörter
(Deutsch)
Clusteranalyse Datenanalyse Hierarchische Clusteranalyse Balanced And Nested Grid BANG-File Grid-File Weka Package GRIDCLUS
Autor*innen
Florian Fritz
Haupttitel (Englisch)
Design and development of a BANG-file clustering system
Paralleltitel (Deutsch)
Design und Entwicklung eines BANG-File Clustering Verfahrens
Publikationsjahr
2018
Umfangsangabe
82 Seiten : Illustrationen, Diagramme
Sprache
Englisch
Beurteiler*in
Erich Schikuta
AC Nummer
AC15370472
Utheses ID
45647
Studienkennzahl
UA | 066 | 926 | |