Detailansicht

Taming crowds
how practitioners address uncertainty when crowdsourcing data sets
Fabian Fischer
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Sozialwissenschaften
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Science-Technology-Society
Betreuer*in
Ulrike Felt
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.70361
URN
urn:nbn:at:at-ubw:1-11199.53077.758116-5
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Crowdsourcing ist ein etablierter Ansatz, um Datensätze zu annotieren, sodass sie analysiert werden können oder die Basis für Anwendungen von ‘Künstlicher Intelligenz’ (‘KI’) bilden. Ein*e Auftraggeber*in verteilt dabei Aufgaben an sogenannte Crowd Worker die Datenpunkte annotieren. Crowdsourcing konfrontiert die Auftraggeber*innen mit multiplen Quellen von Ungewissheit: Wie soll die Aufgabe gestaltet werden, wie können Annotationen am besten genutzt werden, und wie weiß man, ob die Crowd gute Arbeit leistet? All dies verursacht Ungewissheit. Diese Studie untersucht aus der Perspektive der Wissenschafts- und Technikforschung wie Praktiker*innen Ungewissheiten im Rahmen von Crowdsourcing-Prozesses umgehen. Dabei betrachte ich diese Frage aus der Sicht der Actor-Network Theory und analysiere die tatsächliche, chaotische Praxis des Crowdsourcings. Ich führte qualitative Interviews mit Praktiker*innen durch und analysierte diese mit Situational Analysis. In dieser Studie identifiziere ich verschiedene Strategien zum Umgang mit Ungewissheit. Diese Strategien werden von den meisten Crowdsourcing-Ansätzen verwendet. Darunter ist der Ansatz, das ursprüngliche Problem in kleine ‘atomare Aufgaben’ zu zergliedern. Diese Aufgaben haben oft die Form von Single Choice Fragen, die es auch erlauben, rechnerisch die Ergebnisse zu verarbeiten. In diesem Fall ist es möglich, jeden Datenpunkt durch mehrere Crowd Worker annotieren zu lassen und die Ergebnisse durch Aggregation zu kombinieren. Dadurch kann der Auftraggeber die Ungewissheit über mehrere Personen verteilen und quantifizieren. Es ist aber schwierig, die Aufgaben adäquat zu gestalten, es benötigt oft mehrere Iterationen im Zuge derer die Handlungsmacht zwischen Auftraggeber, Crowd und Aggregationsmechanismus zirkuliert. Dabei privilegieren die Aggregationsmechanismen oft eine Mehrheit und bringen jene, die davon abweichen zum Verstummen. Die ‘atomaren Aufgaben’ müssen als getreue Vermittler agieren. Um das zu erreichen ist Kontextinformation wichtig. I zeige in dieser Arbeit, dass je nach Umfang des notwendigen Kontexts damit dem Ansatz der Aufgaben-Zergliederung eine Grenze gesetzt ist. Die Wichtigkeit von Kontext führt auch zur Frage, wie dieser Kontext in die Datensätze eingebettet wird und in weiterer Folge in potentielle, darauf aufbauende ‘KI’-Anwendung. Auftraggeber*innen verwenden verschiedene Möglichkeiten, um die Crowd Worker zu beaufsichtigen, da die Crowd anonym sein kann oder als defizitär im Vergleich zu Expert*innen betrachtet werden kann. Ein kleiner ‘Ground Truth’-Datensatz bei dem die Resultate bekannt sind spielt hier eine wichtige Rolle. Dieser Datensatz kann dazu verwendet werden, um anfangs ‘gute’ Crowd Worker auszuwählen, oder um Testaufgaben zu erstellen, mit denen die Crowd Worker evaluiert werden können. Die Crowd Worker können auch mit ihren Kolleg*innen verglichen werden. Im Anschluss können Auftraggeber*innen Crowd Worker ausschließen und die Bezahlung verweigern. Diese Studie zeigt, dass Crowdsourcing nicht ‘einfach’ gemacht werden kann, sondern grossen Aufwand bedarf. Diese Arbeit bleibt oft unsichtbar und versteckt. Gleichzeitig zeige ich wie erkenntnistheoretische Einstellungen, ob Auftraggeber*innen Daten als strittig anerkennen, die Gestaltung des Crowdsourcing-Prozesses beeinflussen.
Abstract
(Englisch)
Crowdsourcing is a common approach to annotate a data set to be analysed directly or used for ‘Artificial Intelligence’ (‘AI’) applications. An initiator distributes tasks to crowd workers, who then annotate the data point. Turning to crowdsourcing exposes the initiator to multiple sources of uncertainty: How the task should be designed, who is part of the crowd, how to best make use of the annotations, and how to know if the crowd’s work is any good are causes for concern. From a Science and Technology Studies perspective, this study investigates how practitioners that crowdsource data sets address uncertainties during this process. Adopting the stance of Actor-Network Theory, this thesis analyses the actual, messy practice of building a stable actor-network that is crowdsourcing. To achieve this, I conducted qualitative interviews with practitioners and analysed them using Situational Analysis. In this study, I identify strategies to address uncertainty shared among most approaches to crowdsourcing. Among them is the decomposition of the problem into small ‘atomic tasks’. They often involve single-choice questions, which makes them amenable to calculation. If this is the case, several crowd workers can annotate each data point, and their results get combined through a mathematical aggregation mechanism. This allows the initiator to spread uncertainty across crowd workers and make it quantifiable. Finding a suitable task design for this approach is difficult and involves extensive iterative experimentation where agency shifts between the initiator, crowd, and aggregation mechanism. These aggregation mechanisms often privilege a majority while silencing crowd workers that deviate from it. The ‘atomic tasks’ have to act as faithful intermediaries. To make this possible, context information is crucial. I show in this thesis that, depending on the amount and type of context necessary, this puts a limit to task decomposition. The importance of context raises the question of how this context gets inscribed in the annotations and how this, in turn, contributes to biased data sets and potential ‘AI’ applications building on top of them. As the ‘crowd’ can be anonymous or seen as deficient compared to experts, initiators use different forms of supervision to monitor their work. An existing, small ‘ground truth’ data set with known results plays an important role here: It can be used to select ‘good’ workers upfront, or it gets used for test tasks that help evaluate the workers. Workers can also be compared to their peers. The initiator then can discipline them by excluding them and denying payment. My study shows that it is not straightforward to make crowdsourcing work but takes tremendous effort, labour that often remains invisible and hidden. At the same time, I show how epistemic approaches, whether the initiators consider the data as disputed and how this gets acknowledged, informs the structure of crowdsourcing processes.

Schlagwörter

Schlagwörter
(Englisch)
crowdsourcing annotations data data sets uncertainty
Schlagwörter
(Deutsch)
Crowdsourcing Annotationen Daten Datensätze Ungewissheit
Autor*innen
Fabian Fischer
Haupttitel (Englisch)
Taming crowds
Hauptuntertitel (Englisch)
how practitioners address uncertainty when crowdsourcing data sets
Paralleltitel (Deutsch)
Zähmung der Crowd
Paralleluntertitel (Deutsch)
wie Praktiker*innen mit Ungewissheiten im Zuge des Crowdsourcens von Datensätzen umgehen
Publikationsjahr
2021
Umfangsangabe
115 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Ulrike Felt
Klassifikation
71 Soziologie > 71.43 Technologische Faktoren
AC Nummer
AC16471892
Utheses ID
60391
Studienkennzahl
UA | 066 | 906 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1