Detailansicht

Leveraging natural language processing for topic-based analysis of self-reported strategies in judging arachnophobia-related images
Annika Trapple
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Psychologie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Psychologie
Betreuer*in
Frank Scharnowski
Mitbetreuer*in
Filip Melinšcak
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.77207
URN
urn:nbn:at:at-ubw:1-21404.66843.310816-4
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Eines der wichtigsten Werkzeuge in der Therapie ist die Sprache. Insbesondere in der Expositionstherapie gibt es etablierte Methoden, um zu beurteilen, wie sich eine Person fühlt und wie sie mit einer belastenden Situation umgeht. Dazu gehören Skalen zur Bewertung von Stress und Angst oder Biomarker wie der Blutdruck. Eines der wichtigsten Mittel, um Gefühle mitzuteilen, ist jedoch Sprache. Diese Forschungsarbeit untersucht die Möglichkeiten, die der Einsatz von Natural Language Processing (NLP) - insbesondere Topic Modeling bietet, um Themen aus selbstberichteten Verhaltensbeschreibungen zu extrahieren. Wenn es gelingt, Modelle zu trainieren, die aus unbekannten Daten (z.B. Patientenfeedbacks) prägnante und kohärente Themen extrahieren, könnten diese genutzt werden, um zugrundeliegende Themen der Angst zu identifizieren und die Stimulusauswahl zu optimieren. Um die Möglichkeiten einer solchen Methode zu evaluieren, wurden drei Topic Modeling Verfahren untersucht: Latent Dirichlet Allocation (LDA), eine semantisch erweiterte Version von LDA (LDA+) und ein Large Language Model (LLM), das General Pre-Trained Transformer Model 4 (GPT-4). Alle drei Methoden wurden verwendet, um Topic-Modelle mit einem Datensatz (N = 354) zu trainieren, der selbstberichtete Strategien aus einer Spinnenbild-Sortieraufgabe enthielt, und so latente Topics zu extrahieren. Zusätzlich wurden dieselben Verfahren auf drei synthetische Datensätze (je N = 200) angewandt, die mit „seed words“ generiert wurden. Die resultierenden Modelle wurden anhand verschiedener Maße bewertet, darunter Kohärenz der Topics, semantische Unterscheidbarkeit und Überlappung von Wörtern oder Konzepten. Alle aus den synthetischen Datensätzen generierten Modelle wurden auch hinsichtlich der semantischen Ähnlichkeit zwischen den „seed words“ und den extrahierten Topics bewertet, um ihre Nähe zur „ground truth“ zu überprüfen. Schließlich wurde ein trainiertes LDA-Modell zur Kategorisierung unbekannter Daten verwendet, um eine mögliche Anwendung der Methode zu simulieren. Die Ergebnisse zeigten, dass die von GPT generierten Modelle die LDA- und LDA+-Modelle in den meisten Maßen übertrafen, mit Ausnahme der Distanz zwischen „seed words“ und Topics, bei der alle Methoden ähnliche Ergebnisse erzielten. Das separat trainierte LDA-Modell für die simulierte Anwendung enthielt zwei Topics, wobei sich dasjenige, das mit visuellen Merkmalen von Spinnen assoziiert war, als dominanter erwies. Diese Ergebnisse deuten darauf hin, dass der aktuelle Trend, Large Language Models zur Extraktion latenter Themen aus Textdaten zu nutzen, ein vielversprechendes Werkzeug sein könnte, um tiefere Einblicke in selbstberichtete Verhaltensstrategien und andere psychologische Bereiche zu gewinnen.
Abstract
(Englisch)
One of the most important therapy tools is language. Specifically in exposure therapy there are different measures to evaluate how a person is feeling and how they are coping with a stressful situation. These can be scales to evaluate feelings of stress and anxiety or biomarkers like blood pressure. But one of the main ways a person will communicate their feelings is with spoken or written language. This research evaluates the possibilities of using natural language processing (NLP) methods - in particular, topic modeling - to extract themes contained in self-reported descriptions of behavior. If it is possible to train models to extract concise and coherent topics from unseen data (e.g. patients’ feedback during therapy sessions) they could be used to determine underlying topics motivating the patients’ fear and subsequently be used to optimize stimulus choice. To investigate the possibilities of such a method, we applied three different topic modeling techniques, namely Latent Dirichlet Allocation (LDA), a semantically extended version of LDA (LDA+) and a large language model (LLM), the General Pre-Trained Transformer Model 4 (GPT-4) to a dataset (N = 354) containing written self-reported strategies from a spider image sorting task to extract common topics. Additionally, we applied the same topic modeling techniques to three synthetic datasets (N = 200 each) which were generated from given ground-truth seed words. The resulting topic models were evaluated using different evaluation metrics, examining coherence within topics, as well as semantic distance and word overlap between topics. All models generated from synthetic datasets were also evaluated by semantic similarity between seed words and topics to evaluate the closeness of the resulting topics to the known “ground truth” of the datasets, represented by the seed words. Finally, we used a trained LDA model to categorize unseen data, simulating a possible method application. The results showed that the models generated by GPT outperformed the LDA and LDA+ models for most evaluation metrics, except for the seed word - topic distance, where all techniques performed similarly. The separately trained LDA model we used for the simulated model application contained two topics, of which the one associated with visual features of the spider's appearance proved to be more dominant in the unseen data, compared to the topic associated with emotional responses. These results suggest that the current trend of using large language models to extract latent topics from text data may provide some promising tools for gaining further insight into self-reported behavioral strategies.

Schlagwörter

Schlagwörter
(Deutsch)
Arachnophobie Angststörung Expositionstherapie Maschinelles Lernen Natural Language Processing Large Language Models Topic Modeling
Schlagwörter
(Englisch)
Arachnophobia Anxiety Disorder Exposure Therapy Machine Learning Natural Language Processing Large Language Models Topic Modeling
Autor*innen
Annika Trapple
Haupttitel (Englisch)
Leveraging natural language processing for topic-based analysis of self-reported strategies in judging arachnophobia-related images
Publikationsjahr
2024
Umfangsangabe
48 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Frank Scharnowski
Klassifikation
77 Psychologie > 77.03 Methoden und Techniken der Psychologie
AC Nummer
AC17385920
Utheses ID
73633
Studienkennzahl
UA | 066 | 840 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1