Detailansicht

Interpretability of black-box-models in text mining
Christoph Sattler
Art der Arbeit
Magisterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Wirtschaftswissenschaften
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Magisterstudium Statistik
Betreuer*in
Wilfried Grossmann
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.72215
URN
urn:nbn:at:at-ubw:1-25057.14702.701880-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Text Mining und das dazugehörige Subthema der Sentiment Analysis (Stimmungserkennung) sind zunehmend relevante Problemstellungen, die mittels Ideen und Methoden aus Statistik und Machine Learning behandelt werden können. Da die dafür verwendeten (statistischen) Prognosemodelle eine komplexe Struktur aufweisen können, wird in der Forschung zunehmende Aufmerksamkeit auf die Erklärbarkeit und Interpretierbarkeit ebenjener Modelle gelegt. Diese Magisterarbeit verbindet Theorie und Praxis aus beiden Themenbereichen. Der theoretische Hintergrund wird mittels eines Überblicks über Text Mining und Sentiment Analysis sowie einer Einführung in Konzepte und Methoden der Interpretierbarkeit von "Black-Box Modellen" zur Erstellung von globalen oder objektspezifischen Erklärungen dargelegt. Im praktischen Teil werden drei klassische Machine Learning - Modelle trainiert, um die Polarität von englischsprachigen Filmkommentaren zu erkennen und vorherzusagen. Sämtliche Modelle konnten über 80% der Bewertungen korrekt klassifizieren. Die eindeutigsten Fehlklassifizierungen jedes Modells werden anschließend mittels lokal interpretierbarer modell-agnostischer Erklärungen (LIME) analysiert. Mit dieser Magisterarbeit soll ein Überblick über die Verflechtungen von Text Mining - Problemstellungen mit dem Bereich von interpretierbaren Black-Box Modellen präsentiert werden.
Abstract
(Englisch)
Text Mining and Sentiment Analysis in particular are increasingly relevant tasks that can be solved using ideas and methods from statistics and machine learning. As these predictive models can become quite complex and opaque, researchers have given increasing attention to explainability and interpretability of black-box models. This thesis combines theory and practice of both tasks. Theory is covered by an overview of text mining, particularly sentiment analysis, as well as by a motivation for discussing interpretability of black-box models and an introduction into various methods to provide either global or local explanations. As for the practical part, three classic machine learning models (Random Forest, XGBoost and Support Vector Machine with linear kernel) get trained to predict the binary sentiment of English-language movie reviews. Afterwards, each model's most noticeable false predictions are investigated further using locally interpretable model-agnostic explanations (LIME), generating explanations for each prediction. Thus, a compelling overview of the interconnectedness of text mining and interpretable black-box models is presented to the reader.

Schlagwörter

Schlagwörter
(Deutsch)
Machine Learning Textanalyse Interpretierbarkeit
Schlagwörter
(Englisch)
Machine Learning Text Mining Interpretability
Autor*innen
Christoph Sattler
Haupttitel (Englisch)
Interpretability of black-box-models in text mining
Paralleltitel (Deutsch)
Interpretierbarkeit von Black-Box-Modellen im Text Mining
Publikationsjahr
2022
Umfangsangabe
69 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Wilfried Grossmann
Klassifikationen
31 Mathematik > 31.80 Angewandte Mathematik ,
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC16605988
Utheses ID
64046
Studienkennzahl
UA | 066 | 951 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1