Detailansicht

Knowledge-supervised information extraction for natural language processing

Luisa Katharina März

Art der Arbeit

Dissertation

Universität

Universität Wien

Fakultät

Fakultät für Informatik

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Dr.-Studium der technischen Wissenschaften (DissG: Informatik)

Betreuer*innen

Benjamin Roth ,

Hinrich Schütze

Volltext herunterladen
Volltext in Browser öffnen

DOI

10.25365/thesis.73287

URN

urn:nbn:at:at-ubw:1-17804.14376.247197-5

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Diese Arbeit befasst sich mit der wissensüberwachten Informationsextraktion im Bereich des Natural Language Processing. Es geht darum, wie Wissen in überwachte Lernmodelle zur Informationsextraktion (in diesem Fall neuronale Netze), integriert werden kann. Maschinelle Lernmodelle sind darauf zugeschnitten, in ihrem Lernprozess möglichst gut verallgemeinern. In Fällen, in denen generalisierte Modelle daran scheitern, Spezialaufgaben zufriedenstellend zu lernen, ist die Integration von Wissen besonders wichtig. Drei Perspektiven werden in dieser Arbeit besonders hervorgehoben: i) datenzentrierte und ii) modellzentrierte Wissensüberwachung, sowie iii) Wissensüberwachung für die Informationsextraktion in der Industrie. Zunächst werden maschinelles und wissensüberwachtes maschinelles Lernen, das Lernen von Repräsentationen und Anwendungen für Natural Language Processing erklärt. Die drei Perspektiven werden eingeführt und es wird erklärt, wie Wissen über Domäne, Task und/oder Methode in maschinelle Lernmodelle integriert werden kann. Die Beiträge zur datenzentrierten Wissensüberwachung befassen sich mit Eigennamenerkennung in historischen Texten, einer speziellen Domäne, die sich von zeitgenössischen Standardtexten unterscheidet. Es wird gezeigt, dass die datenzentrierte Wissensintegration, bspw. über vor-trainierte domänenspezifische Sprachmodelle oder die Erstellung von mit Wissen angereicherten Wortrepräsentationen, die Modellleistung steigert. Die Erkenntnisse werden durch Ergebnisse auf mehreren Datensätzen bestätigt. Einer der Beiträge zur modellzentrierten Wissensüberwachung präsentiert ein neuronales Netzwerk, das im Inneren mit zwei konkurrierenden neuronalen Netzen arbeitet (adversarial network). Dieses ist für die Verarbeitung von Weak Supervision Daten gedacht und lernt robuste und rauschinvariante Eingaberepräsentationen. Es wird gezeigt, dass die Erweiterung des Modellfokus auf alle relevanten Informationen, die in Eingabeinstanzen enthalten sind, die Leistung der Lernmodelle verbessert. Ein weiterer modellzentrierter Ansatz enthält eine Methode zur Messung von Generalisierung in Modellen, die auf irreführenden Weak Supervision Daten trainiert wurden. Die Ergebnisse zeigen, dass das adversarial Network in der Lage ist, den Grad der Generalisierung zu kontrollieren. Ein Vergleich verschiedener State-of-the-Art-Modelle für Weak Supervision zeigt, dass Generalisierung und Modellleistung nicht direkt zusammenhängen. Der Ansatz zur Wissensüberwachung für die Informationsextraktion in der Industrie etabliert eine Anleitung, wie ein regelbasiertes System aus dem Blickwinkel von Weak Supervision in ein maschinelles Lernmodell überführt werden kann. Neben einer Fallstudie wird der Prozess detailliert erklärt und anhand von Beispielen aus einem industriellen Informationsextraktionssystem veranschaulicht. Der zweite Teil dieser Arbeit enthält alle Originalmanuskripte der inkludierten Artikel, nennt die entsprechenden Quellen und erläutert den Beitrag der einzelnen Autoren.

Abstract

(Englisch)

This work approaches knowledge supervised information extraction for natural language processing. More precisely, it is about how knowledge can be integrated into supervised machine learning models (in this case neural networks) for information extraction. Machine learning models are usually tailored to generalize as much as possible in their learning process to offer a wide range of applications. In cases where generalized models do not sufficiently learn specialized tasks, the integration of knowledge is particularly important and is therefore investigated in this thesis. In particular, three different perspectives are highlighted: i) data-centric knowledge supervision, ii) model-centric knowledge supervision, and iii) knowledge supervision for industrial information extraction. First, machine learning in general, knowledge supervised machine learning, and representation learning, as well as downstream tasks in natural language processing are explained. The above mentioned perspectives on knowledge supervision are introduced and it is explained how knowledge about domain, task, and/or method can be integrated into machine learning models. The contributing articles for data-centric knowledge supervision tackle named entity recognition in historical text, a domain with peculiarities that differ from standard contemporary texts many machine learning models are trained on. It is shown that data-centric knowledge integration, for example via pre-training domain-specific language models or the creation of knowledge-enriched word representations, is beneficial and enhances model performance. The findings are confirmed by the results across different data sets and experiments. One article on model-centric knowledge supervision proposes an adversarial neural network for weakly supervised data that aims to learn robust and noise-invariant input representations. Based on three classification datasets, it is shown that expanding the model focus to all relevant information contained in input instances improves downstream performance of machine learning models. Another model-centric approach measures generalization of models trained on misleading noisy data obtained from weak supervision. Results show that the adversarial network is able to control the degree of generalizing from noisy signals. A comparison of different state-of-the-art models for weak supervision shows that generalization and model performance are not related one-to-one. The knowledge supervision approach for industrial information extraction establishes best-practices and provides a guide on how to turn rule-based systems into machine learning models by utilizing weak supervision. Along with a case study, the process is explained in detail and illustrated by examples. The second part of this work includes all the original manuscripts of the contributing articles, cites the respective source, and presents the contributions of each author.

Autor*innen

Luisa Katharina März

Haupttitel (Englisch)

Knowledge-supervised information extraction for natural language processing

Paralleltitel (Deutsch)

Wissensüberwache Informationsextraktion für die Verarbeitung natürlicher Sprache

Publikationsjahr

2022

Umfangsangabe

x, 165 Seiten : Illustrationen

Sprache

Englisch

Beurteiler*innen

Claudia Plant ,

Michael Wiegand

Klassifikationen

54 Informatik > 54.72 Künstliche Intelligenz ,

54 Informatik > 54.75 Sprachverarbeitung

AC Nummer

AC16806380

Utheses ID

65436

Studienkennzahl

UA | 786 | 880 | |

Detailansicht

Abstracts

Schlagwörter