Exploratory data analysis with Google's tensor processing unit (TPU) : enhancing traditional data mining algorithms with the use of the TPU on the example of the k-means algorithm

Wolff Anna; undefined; undefined; undefined

doi:10.25365/thesis.71917

Detailansicht

Exploratory data analysis with Google's tensor processing unit (TPU)

enhancing traditional data mining algorithms with the use of the TPU on the example of the k-means algorithm

Anna Wolff

Art der Arbeit

Masterarbeit

Universität

Universität Wien

Fakultät

Fakultät für Informatik

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Masterstudium Wirtschaftsinformatik

Betreuer*in

Claudia Plant

Mitbetreuer*in

Martin Perdacher

Volltext in Browser öffnen

DOI

10.25365/thesis.71917

URN

urn:nbn:at:at-ubw:1-30002.92809.220552-0

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

In den letzten Jahren ist Menge der weltweit gesammelten Daten immens gestiegen. Der Umgang mit dieser stetig wachsenden Menge an Daten erfordert zwei Strategien. Einerseits werden Methoden und Algorithmen benötigt, um aussagekräftige Informationen aus der Datenmenge zu extrahieren, und andererseits werden Rechenleistungen benötigt, um die Menge an Daten zu verarbeiten. Beide Herausforderungen werden adressiert. Das Forschungsgebiet Data Mining befasst sich mit der Identifizierung von Mustern in Daten, der Interpretation der identifizierten Muster und der Durchführung qualitativer oder quantitativer Vorhersagen oder Beschreibungen. Ein Schwerpunkt der Forschung im Data Mining ist die Skalierung von Algorithmen für große und sehr große Datensätze. Unternehmen wie Google entwickeln leistungsstarke Hardware, um den Rechenanforderungen moderner Technologien gerecht zu werden. Im Jahr 2016 kündigte Google die Tensor Processing Unit (TPU) an, die speziell für die Rechenanforderungen von tiefen neuronalen Netzwerken (Deep Neural Networks) in den Rechenzentren von Google konzipiert ist. Aber auch andere Data-Mining- und Machine-Learning-Techniken können von der Rechenleistung der TPU profitieren. Ziel dieser Masterarbeit ist es, den k-Means-Algorithmus durch den Einsatz der Google TPU in Bezug auf die Laufzeit zu verbessern und gleichzeitig die Qualität der Clustering-Ergebnisse zu erhalten. Im Rahmen der Masterthesis wurde ein k-Means-Algorithmus mit Matrix-Matrix-Multiplikation implementiert, der auf die Anforderungen der TPU zugeschnitten ist. Es wurden zwei Versionen entwickelt, die das Training auf der TPU auf zwei verschiedene Arten verteilen. Die Clustering-Ergebnisse der beiden Versionen haben Vorteile, die sich in Bezug auf Laufzeit und Genauigkeit ergänzen. Daher wird auch die Kombination beider Versionen untersucht. Die Berechnungszeit des k-Means-Algorithmus kann durch die Verwendung der TPU erheblich beschleunigt werden. Es sollte jedoch berücksichtigt werden, dass das Laden des Datensatzes auf die TPU zusätzliche Zeit in Anspruch nimmt und die Verwendung einer TPU im Vergleich zu einer CPU oder GPU teurer ist. Daher wird die Verwendung der TPU nur für große Datensätze empfohlen und/oder wenn der k-Means-Algorithmus mehrfach für denselben Datensatz wiederholt wird.

Abstract

(Englisch)

In the past few years, there has been an immense increase in the volume of collected data worldwide. Dealing with the continuously growing amount of data requires two strategies. On the one hand, methods and algorithms are needed to extract meaningful information from the amount of data, and on the other hand, there is a need for the computational ability to handle the amount of data. Both challenges are tackled. The research field of data mining is concerned with identifying patterns in data, interpreting the identified patterns and performing qualitative or quantitative predictions or descriptions. One focus of the research in data mining is on scaling algorithms for large and very large data sets. Enterprises like Google are developing powerful hardware to meet the computing needs of modern technologies. In 2016, Google announced the Tensor Processing Unit (TPU), which is specifically designed to meet the computational demands of deep neural networks in Google's data centers. However, other data mining and machine learning techniques can also profit from the computational power of the TPU. This master thesis aims to enhance the k-Means algorithm with the use of the Google TPU in terms of runtime while preserving the quality of the clustering results. We implemented a k-Means algorithm with matrix-matrix multiplication that is tailored to the requirements of the TPU. We developed two versions that distribute training on the TPU in two different ways. The clustering results of the versions have advantages that complement each other in terms of runtime and accuracy. Therefore, combining both versions is also explored. The computation time of the k-Means algorithm can be greatly accelerated by using the TPU. However, it should be taken into consideration that loading the data set on the TPU takes additional time and using a TPU compared to a CPU or GPU is more expensive. Therefore, we recommend using the TPU only for large data sets and/or when the k-Means algorithm is repeated multiple times for the same data set.

Autor*innen

Anna Wolff

Haupttitel (Englisch)

Exploratory data analysis with Google's tensor processing unit (TPU)

Hauptuntertitel (Englisch)

enhancing traditional data mining algorithms with the use of the TPU on the example of the k-means algorithm

Paralleltitel (Deutsch)

Explorative Datenanalyse mit der Tensor Processing Unit (TPU) von Google

Paralleluntertitel (Deutsch)

Verbesserung traditioneller Data-Mining-Algorithmen durch den Einsatz der TPU am Beispiel des k-Means-Algorithmus

Publikationsjahr

2022

Umfangsangabe

xv, 104 Seiten : Illustrationen

Sprache

Englisch

Beurteiler*in

Claudia Plant

Klassifikation

54 Informatik > 54.00 Informatik: Allgemeines

AC Nummer

AC16594661

Utheses ID

63578

Studienkennzahl

UA | 066 | 926 | |

Detailansicht

Abstracts

Schlagwörter