Detailansicht

Gradient matching for learning with noisy data
Lena Zellinger
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Data Science
Betreuer*in
Benjamin Roth
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.72133
URN
urn:nbn:at:at-ubw:1-28153.14992.602499-7
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Tiefe neuronale Netze können für verschiedenste Probleme exzellente Performance erreichen, wenn genügend Daten verfügbar sind. In großen Datensätzen finden sich jedoch häufig Annotationsfehler, welche die Modellqualität negativ beeinflussen können. Um diesen entgegenzuwirken, können sogenannte "Denoising Methoden", welche das Trainieren von Modellen auf fehlerbehafteten Daten vereinfachen, verwendet werden. In dieser Arbeit wird eine neue Denoising Strategie basierend auf dem Prinzip von "Gradient Matching" vorgestellt. Ziel der Methode ist es, während des Trainingsprozesses Datenpunkte, welche einer falschen Klasse zugeordnet wurden, herauszufiltern oder zu korrigieren. Im Vergleich zu manch anderen Denoising Strategien ist unser Algorithmus relativ simpel und breit anwendbar, da er die Wahl der Verlustfunktion, mit der das Modell angepasst wird, nicht einschränkt. Darüber hinaus ist unsere Methode auch für Datensätze, welche mehrere Labels pro Instanz zulassen, geeignet. Um die Effektivität unserer Denoising Strategie zu evaluieren, führen wir Experimente auf drei fehlerbehafteten Datensätzen durch. Die Ergebnisse der Experimente zeigen, dass die Performance unserer Methode stark von den gewählten Verlustfunktionen und Parametern abhängt. Darüber hinaus weist der Algorithmus eine Tendenz auf, viele korrekt annotierte Instanzen aus den Batches zu entfernen. Dennoch wurde in vielen Fällen eine Verbesserung der Performance observiert.
Abstract
(Englisch)
Deep neural networks can achieve excellent performance on various tasks when provided with enough data. However, large-scale datasets oftentimes contain annotation errors, which can negatively impact the model quality. To overcome this issue, so-called denoising methods, which facilitate training on error-prone data, can be applied. In this thesis, a new denoising strategy based on the concept of "gradient matching" is presented. The goal of this method is to dynamically filter out or relabel mislabeled samples during the training process. Compared to some other denoising strategies, our algorithm is fairly simple and widely applicable, since it does not restrict the choice of the loss function used for training. Furthermore, the method is also suitable for multi-label datasets. In order to evaluate the effectiveness of our denoising strategy, we conduct experiments on three noisy datasets. The results of the experiments show that the performance of our method strongly depends on the chosen loss functions and parameters. Moreover, the algorithm has a tendency to remove many correctly labeled samples from the batches. Nevertheless, an improvement in performance was observed in many cases.

Schlagwörter

Schlagwörter
(Deutsch)
Gradient Matching Annotationsfehler Weak Supervision Denoising
Schlagwörter
(Englisch)
gradient matching annotation errors weak supervision denoising
Autor*innen
Lena Zellinger
Haupttitel (Englisch)
Gradient matching for learning with noisy data
Paralleltitel (Deutsch)
Gradient Matching für das Lernen mit fehlerbehafteten Daten
Publikationsjahr
2022
Umfangsangabe
xiii, 88 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Benjamin Roth
Klassifikation
54 Informatik > 54.99 Informatik: Sonstiges
AC Nummer
AC16602357
Utheses ID
64063
Studienkennzahl
UA | 066 | 645 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1