Detailansicht
Enhancing authorship attribution
analysing the impact of emotional language
Maximilian Berens
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Philologisch-Kulturwissenschaftliche Fakultät
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Digital Humanities
Betreuer*in
Andreas Baumann
DOI
10.25365/thesis.78541
URN
urn:nbn:at:at-ubw:1-23981.08576.964917-5
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Authorship attribution ist eine seit langem angewandte Methode zur Bestimmung des Autors eines Textes unbekannter Herkunft. Um dieses Problem der Textkategorisierung zu lösen, können Forschungsmethoden implementiert werden, die eine Textdatenbank und den Schreibstil der dort vorhandenen Autoren analysieren. Üblicherweise werden die Ergebnisse anhand des Erfolgs der korrekten Attribution gemessen. Diese Masterarbeit stellt Methoden zur Autorenverifizierung vor und gibt einen Überblick über die theoretischen Grundlagen. Darüber hinaus wird insbesondere der Einfluss von im Text vorhandenen Emotionen untersucht und ob diese als zusätzliche Parameter gemessen werden können, und, im Idealfall, zu einer Verbesserung der Genauigkeit beitragen können, beziehungsweise, welche Auswirkungen diese emotionalen Marker auf den gesamten Arbeitsprozess der Vorhersage bestimmter Autoren haben können. Somit stellt diese Masterarbeit einen beispielhaften Arbeitsprozess vor, um die Ergebnisse von authorship attribution unter Rücksichtnahme auf emotionale Textattribute potenziell zu verbessern mit Hilfe von maschinellem Lernen. Zu diesem Zweck wird eine Textdatenbank verwendet, welche gesammelte Internetblogs der letzten 20 Jahre enthält. Insgesamt beinhaltet diese, durch webscraping erstellte, Datenbank über 100 Autoren mit über 80 Millionen Wörtern. Dieser umfangreiche Textkorpus bietet eine adäquate Größe von Texten, die explizit mit ihren jeweiligen Autoren verknüpft sind, und stellt damit eine gute Grundlage dar, um für die Forschungsanforderungen geeignet zu sein. Authorship attribution ist eine vielschichtige Aufgabe, die verschiedene Herausforderungen beinhaltet. Im Idealfall gibt es eine kleine Gruppe von in Frage kommenden Autoren, die jeweils mit einer nahezu unbegrenzten Anzahl an Texten als Trainingsdaten zur Verfügung stehen. Da dies jedoch selten der Fall ist, haben sich über die Jahre eine Anzahl von Methoden zur Analyse durchgesetzt. Beispielsweise können die Texte auf stilistische und linguistische Merkmale untersucht werden, wie zum Beispiel unterschiedliche Wortverwendungen, die Häufigkeit bestimmter Worte oder die Satzstruktur, Fehler und die Zeichensetzung. Durch diese Untersuchungen kann Autorenschaft potenziell erkannt werden. Während die Autorenschaftsattribution sich traditionell auf diese Felder beschränkt hat, wird in dieser Masterarbeit ein neuer Ansatz eingeführt, der diese Methoden durch die Analyse emotionaler Sprache in den Texten ergänzt, um potenziell die Ergebnisse zu verbessern. Das übergeordnete Ziel ist es, diese neuen Methoden zu analysieren und die Auswirkungen darzulegen, um neue Wege für die Forschung auf diesem Gebiet zu eröffnen.
Abstract
(Englisch)
Authorship attribution is a long-standing method of determining the author of a text of unknown origin. It can be accomplished using computational methods and is classified as a text categorisation problem. The accuracy of its results generally measures the success of an authorship attribution problem. This master's thesis presents methods of verifying authorship and aims to give an overview of their theoretical foundations. Further, it explicitly analyses the possibilities considering emotion in text, how these parameters can be measured, and their potential implications regarding the overall work process of predicting possible text authors. The master thesis employs methodologies to enhance the results of authorship attribution accuracy while considering emotional language utilising machine learning. To accomplish this, a diachronic text database is used to determine the authorship of texts. This database, compiled by scraping blogs from over 100 authors, contains over 80 million word tokens from active blogs written over the last 20 years. This extensive text corpus provides a vast dataset of texts and content linked explicitly to individual authors, paving the way for extracting appropriate metrics and potential results for correctly classifying authorship. Authorship attribution is a complex task that comes with its own set of challenges. Ideally, it means having a small set of candidate authors with nearly unlimited training data on the content that these authors produced. However, since that is hardly the case, authorship attribution has its own set of problems and best practices in terms of methodology. As for a few examples to illustrate the method, the data can be analysed using stylistic and linguistic features, such as usage patterns, different usage of words, their frequencies, and sentence structure and punctuation. These features provide a baseline for verifying authorship and achieving a robust accuracy score. While authorship attribution has traditionally focused on linguistic and stylistic features, this thesis introduces a novel approach by supplementing these methods with the emotional content in texts and its potential impact on the accuracy of predicting authorship. The overall goal of employing this new analysis layer is to analyse how emotions affect authorship attribution and implement this innovative approach to introduce new avenues for research in the field potentially.
Schlagwörter
Schlagwörter
(Deutsch)
Autorenschaftsattribution Maschinelles Lernen Digitale Geisteswissenschaften Emotionale Sprache Stilometrie
Schlagwörter
(Englisch)
Authorship Attribution Machine Learning Digital Humanities Emotional Language Stylometry
Autor*innen
Maximilian Berens
Haupttitel (Englisch)
Enhancing authorship attribution
Hauptuntertitel (Englisch)
analysing the impact of emotional language
Publikationsjahr
2025
Umfangsangabe
70 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Andreas Baumann
AC Nummer
AC17550466
Utheses ID
75996
Studienkennzahl
UA | 066 | 647 | |