Detailansicht

Validation in unsupervised computational text analysis methods
Jana Bernhard-Harrer
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Sozialwissenschaften
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Doktoratsstudium Sozialwissenschaften: Publizistik- und Kommunikationswissenschaft
Betreuer*in
Hajo Boomgaarden
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.78039
URN
urn:nbn:at:at-ubw:1-28272.57136.829831-7
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Diese Dissertation untersucht die Validierung unüberwachter computergestützter Textanalysemethoden (unsupervised computational text analysis methods) und konzentriert sich dabei speziell auf Worteinbettungen (word embeddings) und Themenmodellierung (topic modeling) im Bereich der computergestützten Sozialwissenschaften. Der Bedarf an zuverlässigen automatisierten Textanalysemethoden ist mit der Digitalisierung und der damit verbundenen Erweiterung des Zugangs zu Textdaten gestiegen. Diese Arbeit untersucht die methodischen Herausforderungen bei der Validierung dieser Methoden, um sicherzustellen, dass sie glaubwürdige und konsistente Ergebnisse liefern. Die erste Studie untersucht die Validierung von Worteinbettungsmodellen, indem sie die Auswirkung von Hyperparametereinstellungen auf ihre Leistung und Stabilität beim Training auf großen Textkorpora bewertet. Sie unterstreicht die entscheidende Rolle der Validierung bei der Modellauswahl und zeigt, wie unterschiedliche Einstellungen zu unterschiedlichen Interpretationen semantischer Beziehungen führen können. Die zweite Studie gibt einen systematischen Überblick über die Validierungspraktiken bei der Themenmodellierung in 792 Studien und zeigt einen Mangel an Standardisierung bei den Validierungsansätzen auf. Sie unterstreicht, wie wichtig es ist, qualitativere und kontextspezifischere Validierungsmethoden anzuwenden, um die Glaubwürdigkeit von Studien zur Themenmodellierung zu erhöhen. Die dritte Studie bewertet den Einfluss verschiedener Validierungsstrategien auf die Auswahl von Themenmodellen und macht deutlich, dass transparente und objektive Validierungsverfahren erforderlich sind, um die Voreingenommenheit der Forschenden zu verringern und die Zuverlässigkeit der Modelle zu verbessern. Anhand dieser Studien werden in der Dissertation Lücken in den derzeitigen Validierungsverfahren aufgezeigt und bewährte Verfahren zur Gewährleistung der Strenge und Validität der computergestützten Textanalyse vorgeschlagen. Die Ergebnisse zielen darauf ab, umsetzbare Richtlinien für die Verbesserung der Genauigkeit und Glaubwürdigkeit von Forschungsergebnissen in den Sozialwissenschaften bereitzustellen, wobei die Bedeutung der Abstimmung von Validierungsaufgaben auf spezifische Forschungsziele betont wird. Insgesamt trägt diese Arbeit dazu bei, validere Methoden für die computergestützte Analyse sozialer und kultureller Phänomene zu entwickeln.
Abstract
(Englisch)
This dissertation explores the validation of unsupervised computational text analysis methods, focusing specifically on word embeddings and topic modeling in the field of computational social science. The need for reliable automated text analysis methods has increased as digitization expands access to textual data. This work explores the methodological challenges of validating these methods to ensure they produce credible and consistent results. The first study examines the validation of word embedding models by assessing the impact of hyperparameter settings on their performance and stability when trained on large text corpora. It highlights the critical role of validation in model selection and shows how different settings can lead to different interpretations of semantic relationships. The second study systematically reviews validation practices in topic modeling across 792 studies, revealing a lack of standardization in validation approaches. It emphasizes the importance of adopting more qualitative and context-specific validation methods to increase the credibility of topic modeling studies. The third study evaluates the influence of different validation strategies on selecting and evaluating topic models, clearly showing the need for transparent and objective validation practices to reduce researcher bias and improve model reliability. Through these studies, the dissertation identifies gaps in current validation practices and proposes best practices for ensuring the rigor and validity of computational text analysis. The findings aim to provide actionable guidelines for improving the accuracy and credibility of research findings in the social sciences, emphasizing the importance of aligning validation tasks with specific research objectives. Overall, this work contributes to developing more robust methodologies in the computational analysis of social and cultural phenomena.

Schlagwörter

Schlagwörter
(Deutsch)
Text Analyse Validierung unüberwachten computergestützten Textanalysemethoden Themenmodell Worteinbettung
Schlagwörter
(Englisch)
Validation text as data computational text analysis unsupervised learning topic model word embedding
Autor*innen
Jana Bernhard-Harrer
Haupttitel (Englisch)
Validation in unsupervised computational text analysis methods
Paralleltitel (Deutsch)
Validierung in unüberwachten computergestützten Textanalysemethoden
Publikationsjahr
2024
Umfangsangabe
ix, 129 Seiten : Illustrationen, Diagramme
Sprache
Englisch
Beurteiler*innen
Annett Heft ,
Anne Kroon
Klassifikation
05 Kommunikationswissenschaft > 05.99 Kommunikationswissenschaft. Sonstiges
AC Nummer
AC17475699
Utheses ID
73376
Studienkennzahl
UA | 796 | 310 | 301 |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1