Detailansicht

Predicting keywords in a corpus of field post letters
Emilie Sitter
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Philologisch-Kulturwissenschaftliche Fakultät
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Digital Humanities
Betreuer*in
Benjamin Roth
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.74942
URN
urn:nbn:at:at-ubw:1-28030.06204.255642-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Das Public-History-Projekt Alltag im Krieg veröffentlicht die Korrespondenz des Ehepaars Hilde und Roland Nordhoff, das zwischen 1938 und 1946 über 2.600 Briefe austauschte. Die erste Hälfte dieser Briefe wurde bereits im Rahmen des Projekts mit jeweils mehreren von insgesamt 81 thematischen Schlagwörtern annotiert. Ziel dieser Arbeit ist zuerst, auf Grundlage der bereits annotierten Briefe die zweite Hälfte der Korrespondenz automatisch zu verschlagworten. Dazu werden verschiedene Modelle zur Textklassifizierung trainiert und verglichen. Im zweiten Schritt untersucht die Arbeit die Anwendbarkeit der zugeordneten thematischen Schlagwörter für eine Distant-Reading-Methode. Im Mittelpunkt steht die Frage, wie gut Lesende den Inhalt der Briefe und ihren Kontext kennenlernen können, indem sie die Relevanz der einzelnen Schlagwörter in bestimmten Zeiträumen betrachten. Dafür werden Schlagwörter untersucht, die in bestimmten Perioden beispielsweise überdurchschnittlich häufig vertreten sind. Die Annahme ist, dass einige der von diesen Schlagwörtern erfassten Themen in diesen Zeiträumen in den Briefen vermehrt diskutiert wurden und auch über die persönliche Sphäre des Ehepaars hinaus politische und/oder soziale Relevanz hatten. Es wird zuerst ein explorativer Ansatz verfolgt, danach werden fünf Hypothesen über bestimmte thematische Schlagwörter und ihren erwarteten Verlauf untersucht. Die Untersuchung der Schlagwörter gibt einzelne Hinweise darauf, dass ihre Häufigkeiten in bestimmten Zeiträumen in Zusammenhang mit persönlichen, gesellschaftlichen und politischen Ereignissen stehen können. Leider sind jedoch weder die bereits existierenden Schlagwörter, die auch als Trainingsdaten für die Klassifizierung fungieren, mit Sicherheit korrekt, noch kann ein Modell mit dieser Daten-Ausgangslage die zweite Hälfte des Briefwechsels mit hoher Genauigkeit verschlagworten, was zu großen Unschärfen in den untersuchten Schlagwortfrequenzen führt.
Abstract
(Englisch)
The Public History project Alltag im Krieg publishes the correspondence of the married couple Hilde and Roland Nordhoff, who exchanged more than 2,600 letters between 1938 and 1946. Within the project, the first half of all letters have already been annotated with several out of a total of 81 thematic keywords. The first goal of the master’s thesis is to automatically annotate the second half of the correspondence, based on the already annotated letters. Various text classification models are trained and compared. In the second step, the thesis investigates the applicability of the assigned thematic keywords for a Distant Reading method. Its assumption is that in periods in which keywords are, for instance, more prevalent than average, the corresponding topics were increasingly discussed in the letters and might have had political and/or social relevance beyond the spouses’ sphere. The objective is to assess how effectively readers can glean insights into the content and context of the letters based on the relevance of keywords during specific periods. After an exploratory approach, the thesis investigates five hypotheses concerning specific thematic keywords and their anticipated trends. Examining the individual keywords provides some indications that their frequencies are related to personal, social, and political events. Unfortunately, neither the pre-existing keywords are correct with certainty, nor can a model which was trained on these noisy keywords predict highly accurate labels for the second half of the correspondence. This leads to large uncertainties in the examined keyword frequencies.

Schlagwörter

Schlagwörter
(Deutsch)
Digital Humanities Textklassifikation Feldpost Korpus Zweiter Weltkrieg
Schlagwörter
(Englisch)
Digital Humanities Text Classification Field Post Military Postal Service Corpus Second World War
Autor*innen
Emilie Sitter
Haupttitel (Englisch)
Predicting keywords in a corpus of field post letters
Paralleltitel (Deutsch)
Vorhersagen von Schlagwörtern in einem Korpus von Feldpostbriefen
Publikationsjahr
2023
Umfangsangabe
ix, 143 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Benjamin Roth
Klassifikationen
15 Geschichte > 15.24 Zweiter Weltkrieg ,
15 Geschichte > 15.43 Deutsche Geschichte des 19. Jahrhunderts bis zur Gegenwart ,
15 Geschichte > 15.48 Sachsen. Sachsen-Anhalt. Thüringen ,
17 Sprach- und Literaturwissenschaft > 17.98 Textsammlungen ,
54 Informatik > 54.75 Sprachverarbeitung ,
54 Informatik > 54.82 Textverarbeitung
AC Nummer
AC17024527
Utheses ID
68860
Studienkennzahl
UA | 066 | 647 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1