Detailansicht

Learning low dimensional representations for k-means with k-competitive autoencoders
Lukas Johannes Miklautz
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Wirtschaftsinformatik
Betreuer*in
Claudia Plant
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.54417
URN
urn:nbn:at:at-ubw:1-18495.36347.303363-9
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Die Kombination von Deep Learning und Clustering, oft auch unter dem Namen Deep Clustering vereint, ist relativ neu, zeigt aber bereits vielversprechende Ergebnisse. Die meisten der aktuellen Deep Clustering Techniken teilen den gleichen Ansatz. Zuerst wird ein Autoencoder trainiert, um die Eingangsdaten auf eine niedrigere Dimension zu projizieren. Diese niedrigdimensionale Darstellung wird dann mit dem k-means Algorithmus geclustert, um erste Cluster-Labels zu erhalten. Aus diesem Clustering wird die erlernte Darstellung schrittweise verfeinert, indem die Punkte in einem Cluster näher an sein Zentrum gezogen werden. Dieser Ansatz hat einige Probleme, z.B. wenn der Autoencoder im ersten Schritt keine gute Darstellung lernt, sind alle nachfolgenden Schritte zum Scheitern verurteilt. Zusätzlich, beschäftigt sich der größte Teil der Deep Learning Forschung mit Bild-, Text- oder Sprachdaten, daher ist es nicht verwunderlich, dass es Schwächen bei anderen Datentypen gibt. In dieser Masterarbeit wird eine solche Schwachstelle für Querschnittsdatensätzen mit Ausreißern identifiziert. In dieser Situation lernt der Autoencoder keine sinnvolle Darstellung, wodurch das Clustering verzerrt wird. Eine mögliche Lösung dafür wurde durch die Verwendung einer angepassten Version des KATE Algorithmus (k-competitive autoencoder for text) gefunden. KATE kann eine sinnvolle niedrigdimensionale Darstellung von Querschnittsdaten mit Rauschen, Redundanz und Ausreißern lernen. Das wird durch eine empirische Untersuchung des in KATE verwendeten Wettbewerbsverfahren gezeigt. In dieser Studie wurde der k-competitive layer ausgewertet und für andere Datentypen angepasst. Der angepasste Algorithmus wurde dann mittels mehreren anspruchsvollen Datensätzen gegenüber anderen Autoencoder-Architekturen verglichen.
Abstract
(Englisch)
Recent research that combines deep learning and clustering, often called deep clustering, shows promising results. Most of these techniques share the same approach. First, they train an autoencoder to project the input data to a lower dimension. The lower dimensional representation is then clustered by k-means to get initial cluster labels. From this, the learned representation is refined in a step wise fashion, by attracting the points in a cluster closer to its center. This approach has some issues, e.g. if the autoencoder does not learn a good representation, all subsequent steps are doomed to failure. Most of deep learning research is concerned with image, text or speech data, thus it is not surprising to see that there are weaknesses for other data types. In this master thesis one such weakness is identified for cross sectional data sets which include outliers. In this setting many autoencoders fail to learn a meaningful representation and therefor distort the initial clustering. One solution is to use an adapted version of the KATE (k-competitive autoencoder for text) architecture. It can learn a meaningful representation of cross sectional data in settings with noise, redundancy and outliers. This is shown in an empirical study of the competition scheme used in KATE. In this study the k-competitive layer is evaluated and adapted for other data types. The adapted algorithm was then benchmarked on multiple challenging real world data sets, against state of the art autoencoder architectures.

Schlagwörter

Schlagwörter
(Englisch)
Deep Learning Neural Networks Representation Learning Machine Learning Data Mining Clustering K-Means K-competitive Competition Noise Data Outlier Autoencoder Deep Clustering high dimensional
Schlagwörter
(Deutsch)
Neuronale Netze Netzwerk Data Mining Clusterverfahren K-Means K-Competitive Autoencoder Ausreißer Rauschen Tiefes Lernen Maschinelles Lernen hochdimensional Cluster
Autor*innen
Lukas Johannes Miklautz
Haupttitel (Englisch)
Learning low dimensional representations for k-means with k-competitive autoencoders
Paralleltitel (Deutsch)
Lernen von niedrigdimensionalen Projektionen für K-Means mit dem K-Competitive Autoencoder
Publikationsjahr
2018
Umfangsangabe
ix, 57 Seiten : Diagramme
Sprache
Englisch
Beurteiler*in
Claudia Plant
Klassifikationen
54 Informatik > 54.61 Datenverarbeitungsmanagement ,
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC15531171
Utheses ID
48085
Studienkennzahl
UA | 066 | 926 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1