Detailansicht

Validation in unsupervised computational text analysis methods

Jana Bernhard-Harrer

Art der Arbeit

Dissertation

Universität

Universität Wien

Fakultät

Fakultät für Sozialwissenschaften

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Doktoratsstudium Sozialwissenschaften: Publizistik- und Kommunikationswissenschaft

Betreuer*in

Hajo Boomgaarden

Volltext herunterladen
Volltext in Browser öffnen

DOI

10.25365/thesis.78039

URN

urn:nbn:at:at-ubw:1-28272.57136.829831-7

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Diese Dissertation untersucht die Validierung unüberwachter computergestützter Textanalysemethoden (unsupervised computational text analysis methods) und konzentriert sich dabei speziell auf Worteinbettungen (word embeddings) und Themenmodellierung (topic modeling) im Bereich der computergestützten Sozialwissenschaften. Der Bedarf an zuverlässigen automatisierten Textanalysemethoden ist mit der Digitalisierung und der damit verbundenen Erweiterung des Zugangs zu Textdaten gestiegen. Diese Arbeit untersucht die methodischen Herausforderungen bei der Validierung dieser Methoden, um sicherzustellen, dass sie glaubwürdige und konsistente Ergebnisse liefern. Die erste Studie untersucht die Validierung von Worteinbettungsmodellen, indem sie die Auswirkung von Hyperparametereinstellungen auf ihre Leistung und Stabilität beim Training auf großen Textkorpora bewertet. Sie unterstreicht die entscheidende Rolle der Validierung bei der Modellauswahl und zeigt, wie unterschiedliche Einstellungen zu unterschiedlichen Interpretationen semantischer Beziehungen führen können. Die zweite Studie gibt einen systematischen Überblick über die Validierungspraktiken bei der Themenmodellierung in 792 Studien und zeigt einen Mangel an Standardisierung bei den Validierungsansätzen auf. Sie unterstreicht, wie wichtig es ist, qualitativere und kontextspezifischere Validierungsmethoden anzuwenden, um die Glaubwürdigkeit von Studien zur Themenmodellierung zu erhöhen. Die dritte Studie bewertet den Einfluss verschiedener Validierungsstrategien auf die Auswahl von Themenmodellen und macht deutlich, dass transparente und objektive Validierungsverfahren erforderlich sind, um die Voreingenommenheit der Forschenden zu verringern und die Zuverlässigkeit der Modelle zu verbessern. Anhand dieser Studien werden in der Dissertation Lücken in den derzeitigen Validierungsverfahren aufgezeigt und bewährte Verfahren zur Gewährleistung der Strenge und Validität der computergestützten Textanalyse vorgeschlagen. Die Ergebnisse zielen darauf ab, umsetzbare Richtlinien für die Verbesserung der Genauigkeit und Glaubwürdigkeit von Forschungsergebnissen in den Sozialwissenschaften bereitzustellen, wobei die Bedeutung der Abstimmung von Validierungsaufgaben auf spezifische Forschungsziele betont wird. Insgesamt trägt diese Arbeit dazu bei, validere Methoden für die computergestützte Analyse sozialer und kultureller Phänomene zu entwickeln.

Abstract

(Englisch)

This dissertation explores the validation of unsupervised computational text analysis methods, focusing specifically on word embeddings and topic modeling in the field of computational social science. The need for reliable automated text analysis methods has increased as digitization expands access to textual data. This work explores the methodological challenges of validating these methods to ensure they produce credible and consistent results. The first study examines the validation of word embedding models by assessing the impact of hyperparameter settings on their performance and stability when trained on large text corpora. It highlights the critical role of validation in model selection and shows how different settings can lead to different interpretations of semantic relationships. The second study systematically reviews validation practices in topic modeling across 792 studies, revealing a lack of standardization in validation approaches. It emphasizes the importance of adopting more qualitative and context-specific validation methods to increase the credibility of topic modeling studies. The third study evaluates the influence of different validation strategies on selecting and evaluating topic models, clearly showing the need for transparent and objective validation practices to reduce researcher bias and improve model reliability. Through these studies, the dissertation identifies gaps in current validation practices and proposes best practices for ensuring the rigor and validity of computational text analysis. The findings aim to provide actionable guidelines for improving the accuracy and credibility of research findings in the social sciences, emphasizing the importance of aligning validation tasks with specific research objectives. Overall, this work contributes to developing more robust methodologies in the computational analysis of social and cultural phenomena.

Autor*innen

Jana Bernhard-Harrer

Haupttitel (Englisch)

Validation in unsupervised computational text analysis methods

Paralleltitel (Deutsch)

Validierung in unüberwachten computergestützten Textanalysemethoden

Publikationsjahr

2024

Umfangsangabe

ix, 129 Seiten : Illustrationen, Diagramme

Sprache

Englisch

Beurteiler*innen

Annett Heft ,

Anne Kroon

Klassifikation

05 Kommunikationswissenschaft > 05.99 Kommunikationswissenschaft. Sonstiges

AC Nummer

AC17475699

Utheses ID

73376

Studienkennzahl

UA | 796 | 310 | 301 |

Detailansicht

Abstracts

Schlagwörter