Detailansicht

A detailed look at the adaptive gradient descent method
Marcel Harrer
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Mathematik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Mathematik
Betreuer*in
Radu Ioan Boţ
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.75550
URN
urn:nbn:at:at-ubw:1-15512.38016.720382-6
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Die Suche nach dem optimalen Wert für ein bestimmtes Problem ist das Ziel in einer Vielzahl von wissenschaftlichen Bereichen. Das mathematische Gebiet der Optimierung versucht, dieses Problem unter verschiedenen Annahmen zu lösen. Wegen ihrer geringen Rechenkosten und ihrer breiten Anwendbarkeit sind Methoden erster Ordnung besonders beliebt. Der Gradientenabstieg ist eine Methode erster Ordnung, die für eine Vielzahl von Problemen gut geeignet ist. Obwohl der Gradientenabstieg schon seit langem bekannt ist, schneidet er im Vergleich zu neueren Ansätzen immer noch gut ab, insbesondere bei hochdimensionalen Problemen. Ein Problem des Gradientenabstiegs ist die Bestimmung der zu verwendenden Schrittweite. Im Laufe der Jahre wurden viele verschiedene Ansätze entwickelt, die jedoch alle Nachteile hatten, wie z.B. begrenzte Konvergenzgarantien oder teure Unterprogramme zur Berechnung der Schrittweite. Yura Malitsky und Konstantin Mishchenko verfolgten in ihrer im Jahr 2020 veröffentlichten Arbeit einen neuartigen Ansatz. In dieser Arbeit werden wir ihren neuen Ansatz mit anderen bekannten Gradientenabstiegsalgorithmen vergleichen, und zwar sowohl im Hinblick auf ihren theoretischen Ansatz zum Nachweis der Konvergenz als auch in Bezug auf ihre Leistung bei bestimmten realen Problemen des maschinellen Lernens.
Abstract
(Englisch)
Finding the optimal value for a given problem is the goal in a variety of scientific fields. The mathematical field of optimization attempts to solve this problem under various assumptions. Because of their low computational cost and broad applicability, first-order methods are particularly popular. Gradient descent is a first-order method that works well for a variety of problems. Despite the fact that gradient descent has been known for a long time, it still performs well in comparison with newer approaches, especially for high-dimensional data. One issue that gradient descent faces is determining what stepsize to use. Many different approaches have been developed over the years, but they all had drawbacks, such as limited convergence guarantees or expensive subroutines to calculate the stepsize. Yura Malitsky and Konstantin Mishchenko took a novel approach in their paper, which was published in 2020. In this thesis, we will compare their new approach to other well-known gradient descent algorithms in terms of their theoretical approach to proving convergence as well as how well they perform on specific real-world machine learning problems.

Schlagwörter

Schlagwörter
(Deutsch)
Optimierung Methoden erster Ordnung maschinelles Lernen
Schlagwörter
(Englisch)
optimization first-order methods machine learning
Autor*innen
Marcel Harrer
Haupttitel (Englisch)
A detailed look at the adaptive gradient descent method
Publikationsjahr
2023
Umfangsangabe
47 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Radu Ioan Boţ
Klassifikationen
31 Mathematik > 31.76 Numerische Mathematik ,
31 Mathematik > 31.80 Angewandte Mathematik
AC Nummer
AC17133352
Utheses ID
69301
Studienkennzahl
UA | 066 | 821 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1