Detailansicht

Mitigating gender bias in neural machine translation
improving the translation of non-binary gender references
Erik Janusch
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Zentrum für Translationswissenschaft
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Joint-Masterstudium Multilingual Technologies
Betreuer*in
Dagmar Gromann
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.78959
URN
urn:nbn:at:at-ubw:1-11513.50495.421529-6
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Maschinelle Übersetzung (MÜ), insbesondere Neuronale Maschinelle Übersetzung (NMÜ), wird häufig für die sprachübergreifende Kommunikation eingesetzt, verfestigt aber oft Geschlechterstereotype und scheitert an der Übersetzung nicht-binärer Geschlechtsreferenzen, was zur Unsichtbarmachung nicht-binärer Geschlechtsidentitäten, sowie zur Verstärkung von schädigenden Stereotypen führt. Dieses Problem tritt insbesondere bei der Übersetzung aus Sprachen mit angenommenem Geschlecht (übersetzt aus dem Englischen, notional gender), wie Englisch und Schwedisch, in Sprachen mit grammatischem Geschlecht, wie Deutsch, auf. Bestehende Ansätze zur Minimierung von Gender Bias sind meist auf binäre Geschlechtsidentitäten begrenzt. Diese Arbeit geht auf diese Forschungslücke ein, indem sie das Finetuning des NLLB-distilled-600M-Modells mit einem kleinen, sorgfältig zusammengestellten multilingualen Datensatzes in Schwedisch, Deutsch und Englisch vorschlägt, der ein ausgewogenes Geschlechterverhältnis sowie nicht-binäre Geschlechtsreferenzen aufweist. In deutschen Übersetzungen wird durchgehend der Doppelpunkt als geschlechterinklusive Strategie angewendet, welche zu Formen wie Techniker:in führt. Zusätzlich wird das nicht-binäre Pronomen dey/dem verwendet. Englische Übersetzungen nutzen they/them und Schwedisch, das in den Experimenten als Ausgangssprache dient, verwendet das Pronomen hen. Nach dem Finetuning zeigen die Modelle wesentliche Verbesserungen in der Übersetzung von Sätzen mit nicht-binären Geschlechtsreferenzen, wobei die Genauigkeit bei diesen Referenzen im Deutschen von 0,00% auf 82,35% und im Englischen von 35,29% auf 97,06% steigt. Eine qualitative Analyse zeigt einen geringen Rückgang in der allgemeinen Übersetzungsqualität, vor allem für Deutsch. Die wesentlichen Beiträge dieser Arbeit sind: (1) ein empirischer Beleg dafür, dass Finetuning mit kleinen, kuratierten Datensätzen die Übersetzung nicht-binärer Geschlechtsreferenzen in NMT effektiv verbessern kann; und (2) die Erstellung und Veröffentlichung eines mehrsprachigen genderfairen Datensatzes, der nicht-binäre Geschlechtsreferenzen enthält, um zukünftige inklusive MÜ-Forschung zu unterstützen.
Abstract
(Englisch)
Machine Translation (MT), in particular Neural Machine Translation (NMT), is widely used for cross-linguistic communication, but often perpetuates gender bias and fails to translate non-binary gender references accurately, which results in the erasure of non-binary identities and the reinforcement of harmful stereotypes. This issue is especially pronounced when translating from notional gender languages, such as English and Swedish, into grammatical gender languages like German. As existing approaches in MT research have primarily focused on mitigating binary gender bias, they rarely include non-binary gender identities. This thesis addresses this research gap by proposing the fine-tuning of the NLLB-distilled-600M model on a small, carefully curated multilingual dataset in Swedish, German, and English, which is gender-balanced and contains authentic non-binary gender references. The dataset is constructed through the adaptation of the SweWinogender 2.0 dataset and selected parts of the MT-GenEval development dataset. In German translations, a colon-based gender-inclusive strategy is consistently applied, resulting in forms such as Techniker:in (technician), and the non-binary pronouns dey/dem (they/them) are used. English translation use they/them and Swedish, which is used as the source language in the experiments, uses hen. The fine-tuned models demonstrate substantial improvements in the translation of sentences containing non-binary gender references, with the accuracy in gender-references in those increasing from 0.00% to 82.35% in German and from 35.29% to 97.06% in English. Qualitative analysis confirms a small decrease in overall translation quality, particularly for German. The key contributions of this thesis are: (1) empirical evidence that fine-tuning with a small, curated dataset can effectively improve the translation of non-binary gender references in NMT; and (2) the creation and public release of a multilingual gender-fair dataset that includes non-binary gender references to support future inclusive MT research.

Schlagwörter

Schlagwörter
(Deutsch)
Maschinelle Übersetzung Nicht-binäre Geschlechtsreferenzen Geschlechterinklusive Sprache Neuronale Maschinelle Übersetzung Genderfaire Sprache
Schlagwörter
(Englisch)
Machine Translation Non-binary Gender References Gender-inclusive Language Gender-fair Language Neural Machine Translation
Autor*innen
Erik Janusch
Haupttitel (Englisch)
Mitigating gender bias in neural machine translation
Hauptuntertitel (Englisch)
improving the translation of non-binary gender references
Paralleltitel (Deutsch)
Minimierung von Gender Bias in neuronaler maschineller Übersetzung
Publikationsjahr
2025
Umfangsangabe
9, 102 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Dagmar Gromann
Klassifikationen
17 Sprach- und Literaturwissenschaft > 17.45 Übersetzungswissenschaft ,
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC17605350
Utheses ID
76827
Studienkennzahl
UA | 066 | 587 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1