Detailansicht

Learning low dimensional representations for k-means with k-competitive autoencoders

Lukas Johannes Miklautz

Art der Arbeit

Masterarbeit

Universität

Universität Wien

Fakultät

Fakultät für Informatik

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Masterstudium Wirtschaftsinformatik

Betreuer*in

Claudia Plant

Volltext herunterladen
Volltext in Browser öffnen

DOI

10.25365/thesis.54417

URN

urn:nbn:at:at-ubw:1-18495.36347.303363-9

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Die Kombination von Deep Learning und Clustering, oft auch unter dem Namen Deep Clustering vereint, ist relativ neu, zeigt aber bereits vielversprechende Ergebnisse. Die meisten der aktuellen Deep Clustering Techniken teilen den gleichen Ansatz. Zuerst wird ein Autoencoder trainiert, um die Eingangsdaten auf eine niedrigere Dimension zu projizieren. Diese niedrigdimensionale Darstellung wird dann mit dem k-means Algorithmus geclustert, um erste Cluster-Labels zu erhalten. Aus diesem Clustering wird die erlernte Darstellung schrittweise verfeinert, indem die Punkte in einem Cluster näher an sein Zentrum gezogen werden. Dieser Ansatz hat einige Probleme, z.B. wenn der Autoencoder im ersten Schritt keine gute Darstellung lernt, sind alle nachfolgenden Schritte zum Scheitern verurteilt. Zusätzlich, beschäftigt sich der größte Teil der Deep Learning Forschung mit Bild-, Text- oder Sprachdaten, daher ist es nicht verwunderlich, dass es Schwächen bei anderen Datentypen gibt. In dieser Masterarbeit wird eine solche Schwachstelle für Querschnittsdatensätzen mit Ausreißern identiﬁziert. In dieser Situation lernt der Autoencoder keine sinnvolle Darstellung, wodurch das Clustering verzerrt wird. Eine mögliche Lösung dafür wurde durch die Verwendung einer angepassten Version des KATE Algorithmus (k-competitive autoencoder for text) gefunden. KATE kann eine sinnvolle niedrigdimensionale Darstellung von Querschnittsdaten mit Rauschen, Redundanz und Ausreißern lernen. Das wird durch eine empirische Untersuchung des in KATE verwendeten Wettbewerbsverfahren gezeigt. In dieser Studie wurde der k-competitive layer ausgewertet und für andere Datentypen angepasst. Der angepasste Algorithmus wurde dann mittels mehreren anspruchsvollen Datensätzen gegenüber anderen Autoencoder-Architekturen verglichen.

Abstract

(Englisch)

Recent research that combines deep learning and clustering, often called deep clustering, shows promising results. Most of these techniques share the same approach. First, they train an autoencoder to project the input data to a lower dimension. The lower dimensional representation is then clustered by k-means to get initial cluster labels. From this, the learned representation is reﬁned in a step wise fashion, by attracting the points in a cluster closer to its center. This approach has some issues, e.g. if the autoencoder does not learn a good representation, all subsequent steps are doomed to failure. Most of deep learning research is concerned with image, text or speech data, thus it is not surprising to see that there are weaknesses for other data types. In this master thesis one such weakness is identiﬁed for cross sectional data sets which include outliers. In this setting many autoencoders fail to learn a meaningful representation and therefor distort the initial clustering. One solution is to use an adapted version of the KATE (k-competitive autoencoder for text) architecture. It can learn a meaningful representation of cross sectional data in settings with noise, redundancy and outliers. This is shown in an empirical study of the competition scheme used in KATE. In this study the k-competitive layer is evaluated and adapted for other data types. The adapted algorithm was then benchmarked on multiple challenging real world data sets, against state of the art autoencoder architectures.

Autor*innen

Lukas Johannes Miklautz

Haupttitel (Englisch)

Learning low dimensional representations for k-means with k-competitive autoencoders

Paralleltitel (Deutsch)

Lernen von niedrigdimensionalen Projektionen für K-Means mit dem K-Competitive Autoencoder

Publikationsjahr

2018

Umfangsangabe

ix, 57 Seiten : Diagramme

Sprache

Englisch

Beurteiler*in

Claudia Plant

Klassifikationen

54 Informatik > 54.61 Datenverarbeitungsmanagement ,

54 Informatik > 54.72 Künstliche Intelligenz

AC Nummer

AC15531171

Utheses ID

48085

Studienkennzahl

UA | 066 | 926 | |

Detailansicht

Abstracts

Schlagwörter