Detailansicht

An evaluation of explanation methods for detectors of machine-generated text
Loris Schoenegger
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Medieninformatik
Betreuer*in
Benjamin Roth
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.75969
URN
urn:nbn:at:at-ubw:1-17317.68819.615691-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Das Verhalten sprachmodellbasierter Detektoren für maschinell generierten Text und die Merkmale, die sie zur Klassifizierung nutzen könnten, sind noch nicht vollständig erforscht. Um Erkenntnisse über das Verhalten dieser Detektoren zu gewinnen, können die Erklärungsmethoden SHAP, LIME und Anchor angewendet werden. Diese Methoden können darüber Aufschluss geben, welche Textstellen für die Entscheidung herangezogen wurden. Die Qualität der entstandenen Erklärungen wurde jedoch bisher nicht im Detail beurteilt. Diese Arbeit führt die erste systematische Bewertung solcher Erklärungen im Kontext dieser Problemstellung durch. Die Dimensionen faithfulness (originalgetreue Abbildung des Entscheidungsprozesses) und stability (ausreichende Sensitivität und ausreichend deterministisches Verhalten) werden mit fünf automatisierten Metriken bewertet. Usefulness (Nützlichkeit) wird mit Versuchspersonen evaluiert. SHAP-, LIME- und Anchor-Erklärungen werden für Entscheidungen dreier sprachmodellbasierter Detektoren erstellt. Hierfür wird ein Datensatz aus ChatGPT-generierten und von Menschen verfassten Dokumenten verwendet. SHAP schneidet hinsichtlich faithfulness und stability am besten ab. LIME und Anchor verfehlen jeweils eine Baseline in den zwei durchgeführten Experimenten zur faithfulness. LIME wird von den Teilnehmenden als am nützlichsten empfunden, führt jedoch nicht zu messbar besserem Abschneiden in einem Versuch, in dem das Verhalten des Detektors vorhergesagt werden soll. Anchor, von den Versuchspersonen als am wenigsten nützlich empfunden, übertrifft LIME in dieser Hinsicht.
Abstract
(Englisch)
The behavior of language-model-based detectors of machine-generated text and the features they might leverage for classification are not yet fully understood. To obtain insights into the behavior of these detectors, one can apply the explanation methods SHAP, LIME, and Anchor. These local explanation methods indicate which parts of an input might be used by a detector for prediction. However, the quality of the resulting explanations has not been assessed in detail before. This thesis conducts the first systematic evaluation of explanation quality for this task. The dimensions of faithfulness and stability are assessed with five automated metrics, and usefulness is evaluated in a user study. SHAP, LIME and Anchor explanations are generated for decisions of three existing language-model-based detectors on a dataset of ChatGPT-generated and human-written documents. SHAP performs best in terms of faithfulness and stability. LIME, perceived as most useful by users, scores the worst in terms of user performance at predicting the detectors' behavior. Anchor, perceived as least useful by users, outranks LIME in terms of performance in the user study. LIME and Anchor each fail to surpass a random baseline on faithfulness, while SHAP surpasses the random baseline in both faithfulness experiments.

Schlagwörter

Schlagwörter
(Deutsch)
Erklärungsmethoden Maschinell generierter Text Evaluierung SHAP LIME Anchor
Schlagwörter
(Englisch)
Explanation Methods Machine-Generated Text Evaluation SHAP LIME Anchor Faithfulness Stability Usefulness User Study
Autor*innen
Loris Schoenegger
Haupttitel (Englisch)
An evaluation of explanation methods for detectors of machine-generated text
Publikationsjahr
2024
Umfangsangabe
xi, 55 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Benjamin Roth
Klassifikationen
54 Informatik > 54.72 Künstliche Intelligenz ,
54 Informatik > 54.75 Sprachverarbeitung
AC Nummer
AC17206247
Utheses ID
71428
Studienkennzahl
UA | 066 | 935 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1