Detailansicht

A generic approach for clustering and classification of text documents
Sebastian Knigge
Art der Arbeit
Magisterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Wirtschaftswissenschaften
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Magisterstudium Statistik
Betreuer*in
Wilfried Grossmann
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.60516
URN
urn:nbn:at:at-ubw:1-25103.92541.479977-7
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Im Forschungsfeld Natural Language Processing überschneiden sich viele wissenschaftliche Disziplinen. Diese Arbeit beleuchtet statistische Herangehensweisen des Natural Language Processing. Untersucht werden die beiden Modelle Latent Dirichlet Allocation und Künstliche Neuronale Netze. Dem Leser wird eine Einführung in die Theorie gegeben und anhand zweier unter- schiedlicher Beispiele sollen die Modelle und deren Einsatz veranschaulicht werden. Ziel der Arbeit ist die Entwicklung und Evaluierung einer generischen Methodik zum Clustern und effektiven Klassifizieren von Dokumenten. Dazu verwende ich in einem grundliegenden Schritt Textbücher als Dokumente, um die beiden Modelle anzupassen. Diese Dokumente sind bereits durch die Initiatoren der freien Online-Bibliothek Project Gutenberg kategorisiert. Somit ist es mölich den Clustering Algorithmus an einem menschgemachten Gruppierungsprinzip zu evaluieren. Die so entwickelten Modelle werden im zweiten Schritt an regulatorischen Dokumenten und Anleitungen der EU- ROSTAT (einer Beh ̈orde der EU) letztlich getestet und ebenfalls mit einer bereits existierenden Einteilung abgeglichen. Bei der verwendeten Open Source Software handelt es sich um R. Alle verwendeten Codes sind im Anhang dieser Arbeit zu finden und vollständig reproduzierbar.
Abstract
(Englisch)
Many scientific disciplines overlap in the field of Natural Language Pro- cessing. This paper examines statistical approaches to Natural Language Processing. It analyses the statistical models Latent Dirichlet Allocation and Artificial Neural Networks. A theoretical introduction will be given to the reader and two different examples will be used to illustrate the models and their use. This thesis aims at developing and evaluating a generic methodology for clustering and effectively classifying documents. In the first step I use text-books as documents to adapt two models. These documents are already categorized by the initiators of the free online library Project Gutenberg. Thus it is possible to evaluate the clustering algorithm on a man-made grouping principle. As second step, the models developed in this manner will be tested on regulatory documents and guidelines of EUROSTAT (an authority of the EU) and compared with an already existing grouping. The open source software used is R. All codes used can be found in the appendix of this paper and are entirely reproducible.

Schlagwörter

Schlagwörter
(Englisch)
NLP natural language processing latent Dirichlet allocation LDA text mining VEM Bayes deep learning neural networks R Keras classification clustering
Schlagwörter
(Deutsch)
NLP Natural Language Processing Latent Dirichlet Allocation LDA Text Mining VEM Bayes Deep Learning Neuronale Netzwerke R Keras Klassifizierung Clustering
Autor*innen
Sebastian Knigge
Haupttitel (Englisch)
A generic approach for clustering and classification of text documents
Paralleltitel (Deutsch)
Generischer Ansatz zur Klassifikation und zum Clustering von Textdokumenten
Publikationsjahr
2019
Umfangsangabe
112 Seiten : Diagramme
Sprache
Englisch
Beurteiler*in
Wilfried Grossmann
Klassifikation
54 Informatik > 54.82 Textverarbeitung
AC Nummer
AC15570098
Utheses ID
53475
Studienkennzahl
UA | 066 | 951 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1