Detailansicht

Mathematical analysis of deep learning with applications to Kolmogorov equations

Julius Konstantin Berner

Art der Arbeit

Dissertation

Universität

Universität Wien

Fakultät

Fakultät für Mathematik

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Doktoratsstudium NAWI aus dem Bereich Naturwissenschaften (DissG: Mathematik)

Betreuer*in

Philipp Grohs

Volltext herunterladen
Volltext in Browser öffnen

DOI

10.25365/thesis.74070

URN

urn:nbn:at:at-ubw:1-27351.08433.380273-1

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Diese Arbeit umfasst eine Reihe an Publikationen, welche einen Beitrag zum aufkommenden Gebiet der mathematischen Analyse des tiefen Lernens leisten. Der Begriff „tiefes Lernen“ (engl. deep learning) bezeichnet Methoden des maschinellen Lernens, bei denen gradientenbasierte Optimierungsverfahren eingesetzt werden, um die Parameter von tiefen neuronalen Netzen an gegebene Daten anzupassen. In den letzten zehn Jahren haben solche Ansätze in einer Vielzahl von Anwendungen zu beispiellosen Fortschritten geführt. Während eine umfassende mathematische Erklärung für diesen Erfolg weiterhin aussteht, liefert die vorliegende Arbeit grundlegende Erkenntnisse, welche ein besseres theoretisches Verständnis des tiefen Lernens ermöglichen. Um eine rigorose Analyse zu ermöglichen, konzentrieren wir uns auf Lernprobleme mit bekannten Regularitätseigenschaften, wie sie oft im Kontext von Differentialgleichungen vorkommen. Insbesondere analysieren wir Algorithmen aus dem Bereich des tiefen Lernens für die numerische Lösung einer Klasse partieller Differentialgleichungen, bekannt als Kolmogorov-Gleichungen, unter Verwendung von Repräsentationen, welche auf stochastischen Differentialgleichungen basieren. Es wird gezeigt, dass empirische Risikominimierung über tiefe neuronale Netze die Lösungen von Familien von Kolmogorov-Gleichungen effizient approximiert, wobei sowohl die Größe der neuronalen Netze als auch die Anzahl an Datenpunkten nur polynomiell in der zugrunde liegenden Dimension skaliert. Darüber hinaus führen wir varianzreduzierte Verlustfunktionen ein und identifizieren Bedingungen, unter denen lokale Minima der entsprechenden Optimierungsprobleme nahezu optimal sind. Andererseits gehen wir auch auf die Unzulänglichkeiten des tiefen Lernens ein und stellen grundlegende Schranken für das Lernen neuronaler Netze aus Daten auf. Ausführliche numerische Experimente bestätigen das Potenzial des tiefen Lernens, den Fluch der Dimensionalität zu überwinden, wobei zugleich dessen inhärente Grenzen deutlich werden. Diese umfassende Untersuchung trägt zu fundierten und verlässlichen Anwendungen von tiefem Lernen in den Naturwissenschaften bei.

Abstract

(Englisch)

This thesis comprises a series of publications that contribute to the emerging field of mathematical analysis of deep learning. The term deep learning refers to machine learning methods that use gradient-based optimization techniques to fit the parameters of deep neural networks to given data. Over the past decade, such approaches have catalyzed unprecedented advances across a wide range of applications. While a comprehensive mathematical explanation for their success remains elusive, this work provides fundamental insights that improve the theoretical understanding of deep learning. To facilitate a rigorous analysis, we focus on learning problems with known regularity properties, as frequently encountered in the context of differential equations. Specifically, we analyze deep learning algorithms for the numerical solution of a class of partial differential equations, known as Kolmogorov equations, employing representations based on stochastic differential equations. It is demonstrated that empirical risk minimization over deep neural networks efficiently approximates the solutions of families of Kolmogorov equations, with both the size of the neural networks and the number of samples scaling only polynomially in the underlying dimension. Furthermore, we introduce variance-reduced loss functions and identify settings in which local minima of corresponding optimization problems are nearly optimal. On the other hand, we also address the shortcomings of deep learning and establish fundamental constraints on learning neural networks from samples. Extensive numerical experiments corroborate the potential of deep learning to overcome the curse of dimensionality while revealing its inherent limitations. This comprehensive investigation contributes toward principled and reliable applications of deep learning in the natural sciences.

Autor*innen

Julius Konstantin Berner

Haupttitel (Englisch)

Mathematical analysis of deep learning with applications to Kolmogorov equations

Paralleltitel (Deutsch)

Mathematische Analyse des tiefen Lernens mit Anwendungen zu Kolmogorov-Gleichungen

Publikationsjahr

2023

Umfangsangabe

272 Seiten in verschiedenen Seitenzählungen : Illustrationen

Sprache

Englisch

Beurteiler*innen

Siddhartha Mishra ,

Christoph Reisinger

Klassifikationen

31 Mathematik > 31.45 Partielle Differentialgleichungen ,

31 Mathematik > 31.76 Numerische Mathematik ,

31 Mathematik > 31.80 Angewandte Mathematik ,

54 Informatik > 54.72 Künstliche Intelligenz

AC Nummer

AC16923399

Utheses ID

66915

Studienkennzahl

UA | 796 | 605 | 405 |

Detailansicht

Abstracts

Schlagwörter