Detailansicht
Hybrid approaches in implicit hate speech detection
GPT-driven feature extraction and supervised learning
Julia Meta Pardatscher
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Zentrum für Translationswissenschaft
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Joint-Masterstudium Multilingual Technologies
Betreuer*in
Dagmar Gromann
DOI
10.25365/thesis.76363
URN
urn:nbn:at:at-ubw:1-31092.08286.469748-8
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Hassrede, insbesondere in ihrer impliziten Form, stellt eine ernsthafte Bedrohung dar und kann weitreichende negative Auswirkungen auf Einzelpersonen und Gemeinschaften haben. Im Gegensatz zu expliziter Hassrede, die offen beleidigend ist, zeichnet sich implizite Hassrede durch versteckte und mehrdeutige Ausdrücke aus, die oft ironisch oder euphemistisch sind. Linguistische Merkmale, die solche Formen der Hassrede kennzeichnen, umfassen z.B. die Verwendung extremer bildlicher Sprache, tabuisierter Themen oder widersprüchlicher Vergleiche, die eine feindselige Haltung vermitteln, ohne offensichtlich beleidigende Ausdrücke zu nutzen. Trotz umfangreicher Forschung bleibt die Erkennung impliziter Hassrede eine große Herausforderung, da diese subtilen linguistischen Nuancen schwer zu identifizieren sind. Herkömmliche Ansätze zur automatisierten Erkennung impliziter Hassrede stützen sich häufig auf manuell annotierte Datensätze, in denen linguistische Merkmale von menschlichen Annotator*innen gekennzeichnet wurden. Solche Ansätze sind auf ausreichend genau annotierte Trainingsdaten angewiesen. Diese Abhängigkeit stellt allerdings ein Problem dar, da der manuelle Annotationsprozess zeitaufwändig und kostspielig ist, insbesondere für kleinere Unternehmen und Organisationen. Diese Masterarbeit schlägt vor, menschliche Annotator*innen durch generative vortrainierte Transformermodelle (GPT) zu ersetzen, um die Effizienz und Genauigkeit von automatisierten Erkennungsmethoden zu verbessern. Ziel ist es, die Abhängigkeit von manuell annotierten Daten zu reduzieren und gleichzeitig die Erkennungsgenauigkeit zu erhöhen. Die Experimente konzentrieren sich auf Hassrede im Englischen und verwenden speziell die Modelle LLaMA-2, GPT-3.5 und GPT-4. Die GPT-Modelle wurden durch Zero-Shot- und Few-Shot-Prompting angewiesen, mehrere Datensätze zu annotieren. Genauer gesagt, wurden die GPT-Modelle dazu angewiesen, die linguistischen Merkmale impliziter Hassrede aus drei öffentlichen Datensätzen zu extrahieren. Diese automatisch annotierten Daten wurden dann zum Trainieren maschineller Lernmodelle verwendet. Um die Effizienz dieser Methode zu evaluieren, wurden dieselben Modelle mit Daten trainiert, die ausschließlich von Menschen annotiert wurden. Der Vergleich der Ergebnisse erlaubt es festzustellen, ob die von GPT extrahierten Daten die Qualität der manuell annotierten Daten erreichen oder sogar übertreffen können. Die Ergebnisse der Untersuchung zeigten deutliche Unterschiede in der Effizienz der verschiedenen Modelle. Die Leistung von LLaMA-2 war nicht zufriedenstellend. Im Vergleich dazu erzielte GPT-3.5 bessere Ergebnisse, die jedoch die Qualität der menschlich annotierten Daten nicht übertrafen. Hervorzuheben sind die Resultate von GPT-4, dessen generierte Annotationen zu einer signifikanten Verbesserung der Trainingsmodelle führten. Schließlich zeigen die Ergebnisse, dass GPT-Modelle eine vielversprechende Alternative zur manuellen Annotation darstellen können, insbesondere in der Erkennung impliziter Hassrede. Der Einsatz solcher Modelle kann die Ressourcenbelastung durch manuelle Annotationen erheblich verringern. Dies reduziert die Notwendigkeit für umfangreiche manuelle Arbeiten, was Kosten und Aufwand minimiert und gleichzeitig die Erkennungsgenauigkeit verbessert.
Abstract
(Englisch)
Hate speech, particularly in its implicit form, is a pervasive issue in online communication, necessitating sophisticated detection methods to foster a respectful digital environment. Unlike explicit hate speech, which is overtly offensive, implicit hate speech is characterized by covert and ambiguous expressions that are often ironic or euphemistic. Linguistic features that characterize such forms of hate speech include the use of extreme imagery, taboo topics, or contradictory comparisons that convey a hostile attitude without using overtly offensive language. Despite extensive research, detecting implicit hate speech remains a major challenge because these subtle linguistic nuances are difficult to discern. Traditional approaches to automatically detecting implicit hate speech often rely on manually annotated datasets where linguistic features were labeled by human annotators. Such approaches depend on accurately annotated training data. However, this dependency is problematic because the manual annotation process is time-consuming and costly, especially for smaller companies and organizations. This thesis proposes an alternative approach by replacing human annotators with Generative Pre-Trained Transformer (GPT) models, thereby facilitating the extraction of linguistic features. The goal is to improve the performance of implicit hate speech classifiers while minimizing dependence on hand-labeled data. The experiments focus on hate speech in English and specifically use the LLaMA-2, GPT-3.5, and GPT-4 models. The GPT models were prompted to annotate multiple datasets using zero-shot and few-shot prompting methods. Specifically, the GPT models were directed to extract the linguistic features of implicit hate speech from four public datasets. This automatically annotated data was then used to train supervised machine learning models. To evaluate the efficiency of this method, the same models were trained on data annotated exclusively by humans. By comparing the results, it can be determined whether the data extracted by GPT can match or even exceed the quality of the manually annotated data. This proposed hybrid approach combines GPT-driven feature extraction with supervised feature-based machine learning methods, simplifying the often complex process of feature extraction. The results of the study showed clear differences in the efficiency of the different GPT models. The performance of LLaMA-2 was unsatisfactory. In comparison, GPT-3.5 achieved better results but did not surpass the quality of the manually annotated data. The results of the classifiers trained with features extracted by GPT-4 show an improvement in detection capabilities compared to classifiers trained on human annotations. Ultimately, the results indicate that GPT models can be a promising alternative to manual annotation, especially in the detection of implicit hate speech. The use of such models can significantly lessen the resource burden of manual annotation. This reduces the need for extensive manual work, thereby minimizing cost and effort while improving recognition accuracy. Given the sensitive nature of this research, it is important to acknowledge the challenges of working with hostile language. The material analyzed includes disturbing and toxic content, and the examples provided may be troubling and potentially offensive to readers. Nevertheless, openly discussing real-world instances of hate speech is crucial for understanding its mechanisms and ultimately finding solutions to address it.
Schlagwörter
Schlagwörter
(Deutsch)
Computerlinguistik Hassrede
Schlagwörter
(Englisch)
Large Language Models Hate Speech Supervised Machine Learning
Autor*innen
Julia Meta Pardatscher
Haupttitel (Englisch)
Hybrid approaches in implicit hate speech detection
Hauptuntertitel (Englisch)
GPT-driven feature extraction and supervised learning
Publikationsjahr
2024
Umfangsangabe
12, 134 Seiten
Sprache
Englisch
Beurteiler*in
Dagmar Gromann
Klassifikationen
17 Sprach- und Literaturwissenschaft > 17.46 Mathematische Linguistik ,
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC17253024
Utheses ID
72233
Studienkennzahl
UA | 066 | 587 | |
