Detailansicht
Building policy analysis models
disambiguation of policy reforms
Nikoletta Jablonczay
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Historisch-Kulturwissenschaftliche Fakultät
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Digital Humanities
Betreuer*in
Benjamin Roth
DOI
10.25365/thesis.76951
URN
urn:nbn:at:at-ubw:1-11910.55292.769429-4
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Diese Arbeit zielt darauf ab, den Übergang von der manuellen zur automatischen Disambiguierung politischer Reformen im Datensatz des C3-Projekts zu erleichtern, der aus den Länderberichten der Economist Intelligence Unit besteht. Es handelt sich um eine Analyse der Wirtschaftsreformen in den EU-Mitgliedstaaten seit den 1980er Jahren. Der ursprüngliche C3-Datensatz enthielt nur einzelne Erwähnungen von politischen Reformen, was seine Verwendung in der automatisierten Datenanalyse einschränkte. Um diese Einschränkung zu beheben, war der erste wichtige Beitrag dieser Arbeit die manuelle Erweiterung des Datensatzes, um Mehrfachnennungen von politischen Reformen aufzunehmen. Ein Basismodell, das eine einfache Clustering-Technik verwendet, wurde als Referenzpunkt für die Bewertung eines fortschrittlicheren Disambiguierungssystems entwickelt, das auf einem pre-trained Modell basiert. Die Leistung des Systems wurde mit dem Link-Based Entity-Aware Scorer und dem Jaccard Ähnlichkeitsindex gemessen. Die Ergebnisse zeigten eine Verbesserung des F1-Scores von 0,395 in der Validierungsmenge auf 0,5507 in der Testmenge, wobei das Modell 76 von 138 vorhergesagten Clustern korrekt identifizierte. Diese Verbesserung war jedoch größtenteils auf die genaue Identifizierung von Singleton-Clustern zurückzuführen, während das Modell Schwierigkeiten hatte, mit Clustern mit mehreren Erwähnungen umzugehen. Ein Jaccard-Ähnlichkeitswert von 0,7346 deutet darauf hin, dass das Modell zwar einige thematische Überschneidungen erfasste, aber Schwierigkeiten mit differenzierteren Unterscheidungen hatte. Die Studie kommt zu dem Schluss, dass NLP-Techniken zwar effektiv politische Erwähnungen extrahieren können, die Effektivität des vortrainierten Modells ohne domänenspezifisches Training jedoch begrenzt war. Obwohl das Disambiguierungssystem eine Verbesserung gegenüber der Baseline mit allen Singletons zeigte, sind fortschrittlichere Clustering-Strategien erforderlich, um die Genauigkeit und die Wiedererkennung bei der Disambiguierung von politischen Reformen zu verbessern.
Abstract
(Englisch)
This thesis aims to facilitate the transition from manual to automated disambiguation of policy reforms in the C3 Project's dataset, which consists of the Economist Intelligence Unit's Country Reports—an analysis of economic reforms in EU member states since the 1980s. The original C3 dataset contained only singleton mentions of policy reforms, limiting its use in automated data analysis. To address this limitation, the first significant contribution of this thesis was the manual expansion of the dataset to include multiple mentions of policy reforms. A baseline model using a simple clustering technique was developed as a reference point for evaluating a more advanced disambiguation system based on a pre-trained sentence embedding model. The system's performance was measured using the Link-Based Entity-Aware scorer and the Jaccard similarity index. Results showed an improvement in the F1 score from 0.395 in the validation set to 0.5507 in the test set, with the model correctly identifying 76 out of 138 predicted clusters. However, this improvement largely stemmed from accurately identifying singleton clusters, while the model struggled to handle multi-mention clusters. A Jaccard similarity score of 0.7346 indicated that while the model captured some thematic overlaps, it had difficulty with more nuanced distinctions. The study concludes that while NLP techniques can effectively extract policy mentions, the pre-trained model's effectiveness was limited without domain-specific training. Although the disambiguation system showed improvement over the all-singletons baseline, more advanced clustering strategies are needed to improve precision and recall in policy reform disambiguation.
Schlagwörter
Schlagwörter
(Deutsch)
NLP Disambiguierung Clustering Embeddings LEA Scorer politische Reformen
Schlagwörter
(Englisch)
NLP Disambiguation Clustering Embeddings LEA Scorer Policy Reforms
Autor*innen
Nikoletta Jablonczay
Haupttitel (Englisch)
Building policy analysis models
Hauptuntertitel (Englisch)
disambiguation of policy reforms
Paralleltitel (Deutsch)
Entwicklung von Politikanalysemodellen
Paralleluntertitel (Deutsch)
Disambiguierung von Politikreformen
Publikationsjahr
2024
Umfangsangabe
73 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Benjamin Roth
Klassifikation
10 Geisteswissenschaften allgemein > 10.03 Methoden und Techniken der geisteswissenschaftlichen Forschung
AC Nummer
AC17357937
Utheses ID
73050
Studienkennzahl
UA | 066 | 647 | |