Detailansicht

Named entity recognition in government domain with reports from the city of Vienna court of audit
Soojeong Jang
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Wirtschaftswissenschaften
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Business Analytics
Betreuer*in
Benjamin Roth
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.73284
URN
urn:nbn:at:at-ubw:1-13864.76210.960333-6
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Heutzutage ist eine riesige Menge an unstrukturierten Daten aus verschiedenen Quellen verfügbar. Techniken zur Verarbeitung natural language processing (NLP), die solche Daten verwenden, werden auf verschiedene Aufgaben angewendet, wie z. B. die ‘Named Enity Recognition’ (NER). Diese Studie soll die Anwendbarkeit der NER-Aufgabe auf den deutschsprachigen Regierungsbereich untersuchen. Heutzutage werden verschiedene Regierungsdokumente digitalisiert, wodurch Möglichkeiten geschaffen werden, die Informationen im Text zu nutzen. Als Datenquelle haben wir Dokumente ausgewählt, die vom Rechnungshof der Stadt Wien erstellt wurden. Wir extrahieren Text aus Dokumenten, indem wir zwei Methoden verwenden: Handbeschriftung und schwache Beschriftung mit der Skweak-Bibliothek. Anhand der Daten passen wir fünf SpaCy- und BERT-Modelle an und optimieren sie, die hohe F1-Werte mit deutschen CoNLL03-Datensätzen erzielen. Dann vergleichen wir die Ergebnisse nach Modellen und nach Datentyp, d. h. die Daten, die durch Hand-Labeling oder Weak-Labeling generiert wurden. Die höchste F1-Punktzahl war 95,57 %, die vom SpaCy-Transformator-xlm-Roberta-Basismodell erzielt wurde, indem handbeschriftete Daten und schwach beschriftete Daten zusammen als Trainingsdatensatz verwendet wurden. Darüber hinaus diskutieren wir den Fall, dass dieses Modell an die realen Geschäftsprobleme angepasst werden kann.
Abstract
(Englisch)
Today, a huge amount of unstructured data from various sources is available. Natural language processing (NLP) techniques using such data are applied to several tasks such as named entity recognition (NER). This study is designed to investigate the applicability of the NER task to the German language government domain. Nowadays, various government documents are digitized, creating opportunities to utilize the information in the text. We selected documents created by the City of Vienna Court of Audit as a data resource. We extract text from documents by using two methods hand-labelling and weak-labelling with skweak library. Using the data, we customize and fine-tune five SpaCy and BERT models that achieve high F1-scores with CoNLL03 German datasets. Then, we compare results by models and by data type which means the data generated by hand-labelling or weak-labelling. The highest F1-score was a 95.57% achieved by the SpaCy transformer xlm-roberta-base model by using hand-labelled data and weakly-labelled data together as a training dataset. Furthermore, we discuss the case that this model can be adapted to the real-world business problems.

Schlagwörter

Schlagwörter
(Deutsch)
Natural Language Processing Named entity recognition Regierung
Autor*innen
Soojeong Jang
Haupttitel (Englisch)
Named entity recognition in government domain with reports from the city of Vienna court of audit
Publikationsjahr
2023
Umfangsangabe
63 Seiten
Sprache
Englisch
Beurteiler*in
Benjamin Roth
Klassifikationen
54 Informatik > 54.75 Sprachverarbeitung ,
85 Betriebswirtschaft > 85.03 Methoden und Techniken der Betriebswirtschaft
AC Nummer
AC16806332
Utheses ID
66245
Studienkennzahl
UA | 066 | 977 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1