Detailansicht

Semi-automatic extraction of image schemas from natural language
Lennart Wachowiak
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Philosophie und Bildungswissenschaft
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Joint Degree Programme MEi :CogSci Cognitive Science
Betreuer*in
Dagmar Gromann
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.65220
URN
urn:nbn:at:at-ubw:1-21636.37683.356066-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Hintergrund Image Schemas bezeichnen kognitive Bausteine, häufig auch räumlich-zeitliche Relationen genannt, die im Kindesalter durch physische Interaktionen mit der Umwelt erlernt werden. Diese Bausteine helfen uns nicht nur dabei uns auf neue und unbekannte Situationen einzustellen, sondern sie prägen laut Theorie auch unser abstraktes und konzeptionelles Denken sowie die Sprache mit der wir dieses ausdrücken. Da die automatische Extraktion von Image Schemas aus natürlicher Sprache immer noch ein ungelöstes Problem ist, wird die korpusbasierte linguistische Analyse von Image Schemas entweder manuell oder mittels halbautomatischer Verfahren durchgeführt, z.B. durch die Definition von Extraktionsregeln und -mustern auf der Grundlage lexikalisch-syntaktischer Merkmale oder durch unbeaufsichtigte Clusteranalyse. Methoden In dieser Arbeit werden zwei auf maschinellem Lernen basierende Ansätze zur Extraktion von Image Schemas entwickelt. Der erste Ansatz erweitert eine bestehende Clustering-Methode, die von räumlichen Sprachtheorien inspiriert ist und Triplets bestehend aus Verb, Präposition und Nomen identifiziert und clustert. Zur Verbesserung des Modells werden Word-Embeddings verwendet, um die durch die Eingabe-Features vermittelten semantischen Informationen zu verbessern. Darüber hinaus wird ein mehrsprachiges überwachtes Modell entwickelt, das auf den jüngsten Fortschritten auf dem Gebiet der Sprachmodellierung und des Transfer Learnings basiert, die es ermöglichen, trotz begrenzter Mengen an Trainingsdaten erfolgreich einen Klassifikator zu trainieren. Ergebnis Eine Auswertung der beiden Methoden anhand eines Datensatzes von gelabelten Daten aus der Image Schema Literatur zeigt die Probleme der unüberwachten Methode bei der Erstellung von Clustern auf der Grundlage von Image Schemas. Das überwachte Modell lernt hingegen erfolgreich Image Schemas in Deutsch und Englisch mit einem gewichteten F1-Score von 0,76 bzw. 0,60 zu identifizieren. Ein höherer Score wird dadurch verhindert, dass mehrere Image Schemas im gleichen Ausdruck vorkommen, was jedoch nicht vom Datensatz abgedeckt ist, welcher nur ein einziges Label zulässt. Dementsprechend muss der Datensatz zukünftig erweitert werden, um eine Multilabel-Klassifikation zu ermöglichen. Auswirkung Ein Verfahren zur einfachen und genauen Extraktion von Image Schemas aus großen Textkorpora würde Forschern helfen zu untersuchen, wie diese unsere Sprache beeinflussen, sowie die Analyse der Kontexte ermöglichen, in denen Image Schemas in verschiedenen Sprachen verwendet werden.
Abstract
(Englisch)
Background Image schemas describe cognitive building blocks, often called spatio-temporal relations, which are learned during infancy through physical interactions with the environment. These building blocks not only help us generalize to new and unseen situations but are also hypothesized to shape our abstract thinking and reasoning, as well as the language through which we express it. Since automatically extracting image schemas from natural language is still an unsolved problem, corpus-based linguistic analysis of image schemas is done either manually or by semi-automated procedures, e.g. by defining extraction rules and patterns based on lexico-syntactic features or by unsupervised clustering. Method In this thesis, two machine learning based approaches for image schema extraction are developed. The first approach extends an existing clustering method, which is inspired by spatial language theories and identifies and clusters verb-preposition-noun triplets. In order to improve the model, word embeddings are utilized to increase the semantic information conveyed by the input features. Moreover, a multilingual supervised model is developed based on recent advances in the field of language modeling and transfer learning, which allow for training a classifier despite having limited amounts of training data. Outcome An evaluation of the two methods against a set of labeled data from image schema literature shows the shortcomings of the unsupervised method in creating cluster-splits based on image schemas. The supervised model, however, learns successfully to identify image schemas in German and English with a weighted F1-Score of 0.76 and 0.60 respectively. A higher score is prevented by multiple image schemas occurring in the same expression which is not covered by the dataset which only allows for a single label. Thus, in the future the dataset needs to be extended in order to allow for a multilabel-classification task. Impact A procedure for extracting image schemas easily and accurately from large text corpora would help researchers to further investigate how they shape our language and provide the means to analyze the contexts in which image schemas occur across different languages.

Schlagwörter

Schlagwörter
(Englisch)
Machine Learning Image Schemas Natural Language Processing Deep Learning Cognitive Linguistics
Schlagwörter
(Deutsch)
Maschinelles Lernen Image Schemas Natural Language Processing Deep Learning Kognitive Linguistik
Autor*innen
Lennart Wachowiak
Haupttitel (Englisch)
Semi-automatic extraction of image schemas from natural language
Paralleltitel (Deutsch)
Halbautomatisierte Extraktion von Image Schemas aus natürlicher Sprache
Publikationsjahr
2020
Umfangsangabe
70 Seiten : Diagramme
Sprache
Englisch
Beurteiler*in
Dagmar Gromann
Klassifikationen
17 Sprach- und Literaturwissenschaft > 17.69 Sprachwissenschaft: Sonstiges ,
54 Informatik > 54.72 Künstliche Intelligenz ,
54 Informatik > 54.75 Sprachverarbeitung
AC Nummer
AC16134873
Utheses ID
57780
Studienkennzahl
UA | 066 | 013 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1