Detailansicht
Quality effects of domain adaptation of NMT models with translation memories in the occupational health and safety domain
Giacomo Munda
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Zentrum für Translationswissenschaft
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Translation Italienisch Deutsch
Betreuer*in
Dagmar Gromann
DOI
10.25365/thesis.72228
URN
urn:nbn:at:at-ubw:1-24083.46427.752688-8
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Das Forschungsgebiet der maschinellen Übersetzung (MÜ) hat mit dem Aufkommen der neuronalen maschinellen Übersetzung (NMÜ) stark an Popularität gewonnen. Obwohl moderne Architekturen bereits ein erstaunliches Qualitätsniveau erreicht haben, versuchen Forscher weiterhin, einige allgemeine Probleme zu lösen, um bessere Leistungen zu erzielen. Zu den Problemen zählt die Inkompetenz von MÜ-Systemen, in einer bestimmten Domäne gute Leistungen zu erbringen. Ziel der vorliegenden Untersuchung ist es, die Auswirkungen der Domänenanpassung auf ein bestehendes NMÜ-System (ModernMT) im Sprachenpaar Italienisch-Südtiroler Deutsch zu testen. Südtiroler Deutsch ist an das italienische Rechtssystem gebunden. Im Laufe der Jahre hat sich eine spezifische rechtlich-administrative Terminologie entwickelt, die die Übersetzung dieser Sprachvarietät durch MÜ-Systeme besonders schwierig gestaltet. Die gewählte Domäne ist der Arbeitsschutz, ein Teilbereich des Rechts mit sehr besonderen terminologischen Merkmalen. Da der Arbeitsschutz in Südtirol ein zentrales Thema ist und jährlich zu diesem Thema Schulungen für Mitarbeiter verfasst und übersetzt werden, ist die vorliegende Masterarbeit ein wertvoller Versuch, den Übersetzungsprozess in dieser Domäne zu erleichtern und zu beschleunigen. Um ein vortrainiertes NMÜ-modell zu einer spezifischen Domäne zu adaptieren, wurden zwei parallele Korpora, bestehend aus etwa 25.000 Übersetzungseinheiten, vom Südtiroler Forschungszentrum Eurac Research zur Verfügung gestellt. Die Daten wurden bereinigt, gefiltert und in ModernMT eingefügt. Die Übersetzungsqualität von drei verschiedenen Testsätzen wurde automatisch bewertet und 79 domänenspezifische Übersetzungseinheiten wurden manuell analysiert, um die Genauigkeit und Fehler im Sprachfluss zu kommentieren. Die Ergebnisse zeigen eine überraschende Steigerung von 6,4 BLEU-Punkten und 3,5 METEOR-Punkten, sowie eine deutliche Verbesserung der terminologischen Genauigkeit. Das Vorhandensein zahlreicher terminologischer Fehler und Fehlübersetzungen zeigt jedoch, dass noch Verbesserungspotential besteht.
Abstract
(Englisch)
The research field of Machine Translation (MT) has gained increased popularity with the advent of Neural Machine Translation (NMT). Even though modern architectures have reached unexpected quality levels, researchers are trying to solve some common issues to deliver better performances. One of these problems is the inability for MT systems to perform well in a specific domain. The objective of the present research is to test the effects of domain adaptation on an existing NMT system (ModernMT) in the language pair Italian-South Tyrolean German. South Tyrolean German is bound to the Italian legal system and during the years, a specific legal-administrative terminology has been developed, making this language variety particularly challenging to be translated by MT systems. The chosen domain is occupational health and safety, a subdomain of law with very peculiar terminology traits. Occupational health and safety is a central topic in South Tyrol and training courses for employees are written and translated on a yearly basis, making the present master’s thesis a valuable attempt to facilitate and accelerate the translation workflow. To fine-tune a pre-trained model, two parallel corpora consisting of roughly 25,000 translation units have been made available by South Tyrolean research center Eurac Research. The data have been cleaned, filtered and inserted into ModernMT. The translation quality of three different test sets has been assessed automatically and 79 domain-specific parallel segments have been manually analyzed to annotate accuracy and fluency errors. Results have shown a surprising increase of 6.4 BLEU points and 3.5 METEOR points, as well as a noticeable improvement of the terminological accuracy. However, the presence of multiple terminology errors and mistranslations is the proof that there is still room for improvement.
Schlagwörter
Schlagwörter
(Deutsch)
MÜ NMÜ Domänenanpassung Qualität Terminologie Arbeitsschutz Südtirol
Schlagwörter
(Englisch)
MT NMT Domain Adaptation Quality Terminology Occupational Health and Safety South Tyrol
Autor*innen
Giacomo Munda
Haupttitel (Englisch)
Quality effects of domain adaptation of NMT models with translation memories in the occupational health and safety domain
Paralleltitel (Deutsch)
Qualitative Auswirkungen der Domänenanpassung von NMÜ-Modellen mit Übersetzungsspeichern in der Arbeitsschutzdomäne
Publikationsjahr
2022
Umfangsangabe
104 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Dagmar Gromann
Klassifikation
17 Sprach- und Literaturwissenschaft > 17.45 Übersetzungswissenschaft
AC Nummer
AC16606209
Utheses ID
64464
Studienkennzahl
UA | 070 | 348 | 331 |