Detailansicht
Automated creation of domain-specific bilingual corpora for machine translation, focusing on dissimilar language pairs
Bartholomäus Wloka
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Zentrum für Translationswissenschaft
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Dr.-Studium der Philosophie (Dissertationsgebiet: Transkulturelle Kommunikation)
Betreuer*in
Gerhard Budin
DOI
10.25365/thesis.65012
URN
urn:nbn:at:at-ubw:1-24927.03887.536166-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Die Wichtigkeit satz-alignierter bilingualer Korpora, auch paralle Korpora
genannt, als Trainingsdaten für maschinelle Übersetzungsysteme und für eine
Vielzahl anderer Sprachtechnologieanwendungen ist in den letzten Jahren im-
mer deutlicher geworden. Sogar noch mehr gefragt sind Korpora, die eine bes-
timmte Domäne abdecken und somit noch zielgerichteter für das Training
von Deep Learning, statistischen oder beispielbasierten Systemen sind. Das
Ziel dieser Doktorarbeit ist es, die Realisierbarkeit der automatisierten Erstel-
lung von parallelen Daten aus Wikipedia zu untersuchen. Insbesondere wer-
den Sprachpaare untersucht, die in Hinblick auf Oberflächenstruktur und
andere Aspekte sehr unterschiedlich sind. Genauer gesagt, wie kann domä-
nenspezifischer Text aus Wikipedia effizient gesammelt werden, wie können
diese Daten auf Satzebene aligniert werden und wie können diese Satzpaare
evaluiert werden, um die bestmöglichen Übersetzungskandidaten zu bekom-
men.
Die Forschungsfragen sind: Wie viel des Wikipedia-Inhaltes kann verwen-
det werden, um bilinguale Korpora für ein bestimmtes Sprachpaar zu bauen
und wie können diese Texte effizient aligniert werden; all das mit minimalem
menschlichem Input.
Für die Beantwortung dieser Frage wurden zwei Sprachen gewählt, die
repräsentativ für die Fragestellung sind, nämlich Englisch und Japanisch. Der
Ablauf, die Algorithmen, die Softwaremodule und das daraus resultierende
Korpus sind als Proof of Concept zu verstehen und können an andere Domä-
nen und Sprachpaare angepasst werden.
Diese Arbeit schlägt eine Methode für themenspezifisches Datensammeln
aus Wikipedia, eine Alignierungsmethode und eine Qualitätsmetrik vor. Die
Algorithmen der in dem Zusammenhang entstandenen Software sind sowohl
generisch beschrieben, wie auch in Python implementiert. Das Ergebnis einer
Iteration der Software, 66,000 Satzpaare, ist der erste experimentelle Daten-
satz. Dieser Datensatz wird von Experten evaluiert, um die Ergiebigkeit, Um-
setzbarkeit und Effizienz dieser Methode zu untersuchen.
Abstract
(Englisch)
The significance of sentence-aligned bilingual corpora, so-called parallel
corpora, as training sets for machine translation systems and for various other
language technology applications has become more and more evident in re-
cent years. Even more desirable are collections which address a certain domain
and hence offer more precise data for training of deep learning, statistical, or
example-based approaches. The goal of this doctoral dissertation is to exam-
ine the feasibility of automated bilingual corpus creation from Wikipedia,
specifically for languages which differ significantly in surface characteristics
and other aspects. More precisely, how can Wikipedia be crawled to obtain
domain-specific corpora in an efficient way, how can these corpora be sentence-
aligned, and how can these alignments be evaluated to obtain the highest pos-
sible probability of a translated or equivalent sentence.
The research questions addressed in this work are: How much of the text
on Wikipedia content can be used to build a bilingual aligned corpus for a spe-
cific language pair, and how can these texts be selected and aligned efficiently,
all with minimal human input in the process.
The question is addressed by selecting two languages, which are represen-
tative of a dissimilar pair, English and Japanese. The resulting procedure, al-
gorithms, software modules, and created corpus are a proof of concept, which
can be adjusted in order to be applied to other dissimilar language pairs.
This dissertation proposes a method for crawling from Wikipedia by topic,
aligning this data into a parallel corpus and a novel metric that measures the
relative quality of this alignment. The resulting program tool chain is pre-
sented as a generic algorithm and is implemented in the Python programming
language. The result of a first iteration of the software resulted in an English-
Japanese parallel corpus of 66,000 sentence pairs. Human expert evaluations
are presented to show the yield, feasibility, and efficiency of this method.
Schlagwörter
Schlagwörter
(Englisch)
parallel Corpora machine translation natural language processing web-crawling software-application
Schlagwörter
(Deutsch)
Parallele Korpora maschinelle Übersetzung Natural Language Processing Web-craling Software-Applikation
Autor*innen
Bartholomäus Wloka
Haupttitel (Englisch)
Automated creation of domain-specific bilingual corpora for machine translation, focusing on dissimilar language pairs
Paralleltitel (Deutsch)
Automatische Erstellung von domänspezifischen bilingualen Korpora für maschinelle Übersetzung, insbesondere für stark unterschiedliche Sprachen
Publikationsjahr
2020
Umfangsangabe
xi, 186 Seiten
Sprache
Englisch
Beurteiler*innen
Werner Winiwarter ,
Yves Lepage
AC Nummer
AC16220975
Utheses ID
55893
Studienkennzahl
UA | 792 | 323 | |