Detailansicht

Strategic classification
the impact of user information and nonlinear classification models
Blanka Visy
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Data Science
Betreuer*in
Sebastian Tschiatschek
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.78318
URN
urn:nbn:at:at-ubw:1-27311.85820.817548-0
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Entscheidungsträger nutzen häufig Machine-Learning-Modelle, um Nutzer zu klassifizieren. Eine \\grundlegende Annahme dieser ML-Modelle wird jedoch oft verletzt: dass die Verteilung der Instanzen nach der Bereitstellung des Modells in der Praxis mit der der Trainingsdaten übereinstimmt. Wenn Ergebnisse für Nutzer wichtig sind, versuchen sie möglicherweise, ihre Features zu manipulieren, um ein günstigeres Ergebnis, d. h. eine positive Klassifizierung, zu erzielen. Dieses Verhalten wird als „Gaming“ bezeichnet (z. B. der Beitritt mehrerer Sportvereine zur Verbesserung der Studienplatzchancen). Da dies sowohl Entscheidungsträger als auch Nutzer betreffen kann, beispielsweise durch eine verringerte Klassifizierungsgenauigkeit, befassen sich verschiedene Ansätze mit dieser \\Verteilungsverschiebung, wie zum Beispiel das Framework von "Strategic Classification" \citep{hardt2016strategic}. Ein Großteil der bestehenden Literatur konzentriert sich jedoch primär auf lineare Modelle und geht davon aus, dass Nutzer über vollständige Informationen (d. h. genaue Informationen zu Modellgewichten und -struktur) über das verwendete Modell verfügen. Probleme wie das obige Beispiel sind jedoch oft komplexer und erfordern nichtlineare Klassifikatoren. Zudem ist die Annahme vollständiger Informationen über das Modell oft keine realistische Annahme – je nachdem, welche Informationen die Entscheidungsträger den Nutzern zur Verfügung stellen, können unterschiedliche Informationsszenarien entstehen. In meiner Arbeit untersuche ich, wie sich Nichtlinearität und verschiedene Informationsszenarien auf Modelle unter der Annahme von „Gaming“ auswirken. Anstatt die Analysen auf extreme Informationsfälle wie vollständige Transparenz oder keine Informationen zu beschränken, untersuche ich auch die Auswirkungen der Bereitstellung von Modellerklärungen wie LIME als Informationen für Nutzer. Die Ergebnisse zeigen, dass lineare und nichtlineare Modelle oft zu unterschiedlichen Auszahlungen führen, insbesondere für Entscheidungsträger. Sowohl bei vollständiger Transparenz als auch bei überhaupt keine Informationen erzielen Entscheidungsträger mit linearen Modellen eine höhere Genauigkeit, es gab jedoch auch Informationsszenarien, in denen nichtlineare Modelle eine höhere Genauigkeit lieferten. Darüber hinaus variieren die Auswirkungen verschiedener Informationsszenarien: Nutzer tragen tendenziell höhere Kosten in Situationen mit weniger Informationen, während Entscheidungsträger oft in transparenten Fällen Nachteile erleiden. Zusammengefasst untersucht diese Studie die Konsequenzen von "Strategic Classification" für Entscheidungsträger und Nutzer in verschiedenen Informationsszenarien und -modellen.
Abstract
(Englisch)
Machine learning models are often used by decision-makers to classify users with the goal of making accurate predictions. However, a fundamental assumption of these ML models is often violated — namely, that the distribution of instances after deployment matches that of the training data. When outcomes are important to users, they may attempt to manipulate their features with the goal to achieve a more favorable result i.e. a positive classification, a behavior known as gaming (e.g., students joining multiple sports clubs to improve university admission chances). As this can affect both decision-makers and users, for example by reducing classification accuracy, various approaches address this distribution shift, such as the strategic classification framework by \cite{hardt2016strategic}. However, much of the existing literature focuses primarily on linear models and assumes that users have full information (i.e., exact information on model weights and structure) about the employed model. Yet, problems like the example above are often more complex and require non-linear classifiers. Also in many cases, full information about the model is not a realistic assumption - there can be different information scenarios based on what information the decision-makers choose to make avaible to the users. In this thesis, I investigate how non-linearity and different information scenarios affect the outcomes of classificarion under gaming. Instead of limiting the analysis to extreme information cases like full transparency or no information, I also examine the effect of providing users with model explanations as information. Findings show that linear and non-linear models often result in different payoffs, especially for decision-makers. With both full transparency and full opacity (no information), the decision-makers get better accuracy with linear models, but there were also information scenarios where non-linear models provided better accuracy. Additionally, the effects of different information scenarios vary: users tend to incur higher costs in settings with less information, whereas decision-makers face disadvantages in transparent cases. Overall, this study investigates the consequences of strategic classification for both decision-makers and users across different information scenarios and models, highlighting their often significant impact on both parties.

Schlagwörter

Schlagwörter
(Deutsch)
Strategic classificaton Robustes Maschinelles Lernen Nutzerinformation Nichtlineare Modelle Blackbox-Modelle Modellinterpretierbarkeit
Schlagwörter
(Englisch)
Strategic classificaton Robust Machine Learning User Information Non-linear Models Blackbox Models Model Interpretability
Autor*innen
Blanka Visy
Haupttitel (Englisch)
Strategic classification
Hauptuntertitel (Englisch)
the impact of user information and nonlinear classification models
Paralleltitel (Deutsch)
Strategic classification
Paralleluntertitel (Deutsch)
Auswirkungen von Information an Nutzern und nichtlinearen Klassifikationsmodellen
Publikationsjahr
2025
Umfangsangabe
78 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Sebastian Tschiatschek
Klassifikation
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC17523526
Utheses ID
75712
Studienkennzahl
UA | 066 | 645 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1