Detailansicht

Qualitative evaluation of machine translation training data discarded by open-source automatic data cleaning tools
Rujuta Makarand Dixit
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Zentrum für Translationswissenschaft
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Translation Englisch Deutsch
Betreuer*in
Dragoș Ioan Ciobanu
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.73419
URN
urn:nbn:at:at-ubw:1-15765.91643.519859-0
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Die manuelle Bereinigung der Trainingsdaten für maschinelle Übersetzungssysteme kann ein teurer und zeitaufwändiger Prozess sein. Qualitativ hochwertige Trainingsdaten sind für ein maschinelles Übersetzungssystem notwendig, um gute, sinnvolle Ergebnisse zu erzielen. Das Ziel dieses Forschungsprojekts besteht darin, die Reinigungsgenauigkeit von zwei Open-Source-Tools zur automatischen Datenbereinigung, Bicleaner und Moses, zu überprüfen. Trainingsdaten werden sowohl für statistische als auch für neuronale maschinelle Übersetzungssysteme benötigt, aber dieses Forschungsprojekt konzentriert sich auf das Letztere. Ein großes Englisch-Deutsch-Korpus wurde mit Bicleaner bereinigt, welches die Reinigungsalgorithmen von Moses enthält. Anschließend analysierte ich die aus diesem Korpus verworfenen Daten auf nützliche Daten. Außerdem wurden die Merkmale der nützlichen Daten, sofern vorhanden, analysiert. Darüber hinaus werden der Reinigungsprozess, die Datenanalyse und die Beschränkungen dieses Forschungsprojekts näher erläutert. Das Fazit zeigt, dass die automatischen Open-Source-Tools zwar sehr genau zu sein scheinen, ihre Leistung jedoch durch einige Änderungen verbessert werden könnte.
Abstract
(Englisch)
Manual cleaning of training data for machine translation systems can be an expensive and time-consuming process. High-quality training data is a must for any machine translation system to produce satisfactory outputs. This research project aims to check the cleaning accuracy of two open-source automatic data cleaning tools, Bicleaner and Moses. Training data is needed for both statistical and neural machine translation systems, but this research project focuses on the latter. A large English-German corpus was cleaned using Bicleaner, which comprises the cleaning algorithms of Moses. I then analysed the data discarded from this corpus for any useful data. As well as the features of the useful data, if any, were analysed. Furthermore, the cleaning process, data analysis and limitations of this research project are discussed in closer detail. The conclusion shows that even though the open-source automatic data cleaning tools seem to be highly accurate, their performance could be improved by making some changes.

Schlagwörter

Schlagwörter
(Deutsch)
automatische Datenbereinigung neuronale maschinelle Übersetzung Bicleaner Moses Open-Source-Tools Datenanalyse Reinigungsprozess Reinigungsgenauigkeit Trainingsdaten
Schlagwörter
(Englisch)
Neural Machine Translation Bicleaner Moses Automatic Data Cleaning Training Data Data Analysis Open-Source Tools
Autor*innen
Rujuta Makarand Dixit
Haupttitel (Englisch)
Qualitative evaluation of machine translation training data discarded by open-source automatic data cleaning tools
Paralleltitel (Deutsch)
Qualitative Bewertung der Trainingsdaten für maschinelle Übersetzung, die von Open-Source-Tools zur automatischen Datenbereinigung verworfen wurden
Publikationsjahr
2023
Umfangsangabe
99 Seiten
Sprache
Englisch
Beurteiler*in
Dragoș Ioan Ciobanu
Klassifikation
17 Sprach- und Literaturwissenschaft > 17.45 Übersetzungswissenschaft
AC Nummer
AC16820202
Utheses ID
66555
Studienkennzahl
UA | 070 | 342 | 331 |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1