Detailansicht
Temporal adaptation techniques in diachronic language modelling
Ksenia Dvorkina
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Data Science
Betreuer*in
Benjamin Roth
DOI
10.25365/thesis.79075
URN
urn:nbn:at:at-ubw:1-20180.71085.552263-6
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Diese Masterarbeit untersucht Strategien zur zeitlichen Anpassung generativer Sprachmodelle, um historische Sprachvariationen im Englischen abzubilden. Während die meisten modernen Sprachmodelle Sprache als statisch betrachten, wird in dieser Arbeit eine diachrone Version des Open Language Model (OLMo) entwickelt, indem es auf historischen englischen Texten feinabgestimmt wird. Es werden zwei Hauptstrategien verfolgt: die vollständige Feinabstimmung mit verschiedenen Formen zeitlicher Konditionierung sowie ein Mixture-of-Experts-(MoE)-Ansatz, bei dem jeweils ein Experte auf einen unterschiedlichen historischen Zeitraum feinabgestimmt wird und deren Ergebnisse durch einen gelernten Steuerungsmechanismus kombiniert werden. Die Experimente zeigen, dass die zeitliche Konditionierung während der vollständigen Feinabstimmung nur begrenzte Auswirkungen auf die Perplexität hat. Im Gegensatz dazu führt der MoE-Ansatz zu deutlichen Verbesserungen der Perplexität und ermöglicht eine strukturelle Kodierung der Zeit. Über die Sprachmodellierung hinaus wird gezeigt, dass die Steuerungsausgaben des MoE zur Datierung von Texten genutzt werden können, wobei das Modell in der Lage ist, das Veröffentlichungsjahr historischer Texte mit hoher Genauigkeit vorherzusagen.
Abstract
(Englisch)
This thesis explores strategies for temporally adapting generative language models to capture historical variation in English. While most modern language models treat language as static, this work develops a diachronic version of the Open Language Model (OLMo) by fine-tuning it on historical English texts. Two main strategies are explored: full fine-tuning with various forms of temporal conditioning, and a Mixture of Experts (MoE) approach, where each expert is fine-tuned on a different historical period and combined using a learned gating mechanism. Experiments show that temporal conditioning during full fine-tuning had limited impact on perplexity. In contrast, the MoE approach led to clearer improvements in perplexity and enabled a structural encoding of time. Beyond language modelling, we show that the MoE’s gating outputs can be used for text dating, demonstrating that model is able to predict the publication year of historical texts with high accuracy.
Schlagwörter
Schlagwörter
(Deutsch)
Diachronic Language Modelling Generative Language Models Fine-tuning Mixture of Experts Textdatierung
Schlagwörter
(Englisch)
Diachronic Language Modelling Generative Language Models Mixture of Experts Text Dating Fine-tuning
Haupttitel (Englisch)
Temporal adaptation techniques in diachronic language modelling
Publikationsjahr
2025
Umfangsangabe
74 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Benjamin Roth
Klassifikation
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC17618159
Utheses ID
76983
Studienkennzahl
UA | 066 | 645 | |
