Detailansicht

Assumption-lean conditional predictive inference via the Jackknife
Nicolai Amann
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Wirtschaftswissenschaften
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Doctor of Philosophy-Doktoratsstudium Wirtschaftswissenschaften (Dissertationsgebiet: Statistik und Operations Research)
Betreuer*innen
Hannes Leeb ,
Lukas Steinberger
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.74703
URN
urn:nbn:at:at-ubw:1-28816.88860.660938-6
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Das Ziel der vorliegenden Arbeit ist die Konstruktion von Prognoseintervallen mithilfe eines Jackknife Ansatzes, deren tatsächliche Überdeckungswahrscheinlichkeit bedingt auf die Trainingsdaten in endlicher Stichprobe nahe an dem nominalen Wert liegt und asymptotisch valide sein kann im hochdimensionalen Fall. Die Hauptinnovation besteht in der Verallgemeinerung der Resultate von Steinberger and Leeb (2023, The Annals of Statistics 51.1, 290–311) auf unstetige Verteilungen der abhängigen Variable und den Fall von nicht-linearen Modellen. Genauer gesagt teilt sich diese Arbeit in vier Teile auf: Im ersten Teil stellen wir einen Zusammenhang zwischen der Überdeckungswahrscheinlichkeit eines Prognoseintervalls und der in verschiedenen Metriken gemessenen Genauigkeit der Schätzung der Verteilungsfunktion des Prognosefehlers auf. Während im Falle einer stetigen Verteilung die Kolmogorov Distanz eine geeignete Wahl ist, führen wir die "epsilon-variational divergence" ein um den nicht-stetigen Fall zu behandeln und diskutieren Vorteile gegenüber der Kolmogorov Distanz, der Lp-norm und der Lévy Metrik. Des Weiteren erstreckt sich die Verwendung der "epsilon-variational divergence" auch auf die Schätzung von anderen Funktionen des Prognosefehlers wie beispielsweise den mittleren quadratischen Prognosefehler oder den mittleren absoluten Prognosefehler. Im zweiten Teil der Arbeit definieren wir einen Jackknife Ansatz zur Schätzung der Verteilung des Prognosefehlers bedingt auf die Trainingsdaten. Drittens präsentieren wir obere Schranken für die auf verschiedene Arten gemessene Distanz zwischen der bedingten Verteilung des Prognosefehlers und deren Schätzung. Unsere Resultate werden sowohl in endlicher Stichprobe als auch asymptotisch angegeben und umfassen sowohl den niedrig-dimensionalen als auch den hoch-dimensionalen Fall. Des Weiteren zeigen wir, dass die Verteilung des Prognosefehlers konsistent geschätzt werden kann, wenn die folgenden zwei Bedingungen erfüllt sind: Der Prognosefehler sollte beschränkt in Wahrscheinlichkeit sein und der Prognosealgorithmus sollte eine Stabilitätsbedingung erfüllen. Im letzten Teil zeigen wir, dass unter schwachen Annahmen diese zwei Eigenschaften für den Kleinste-Quadrate-Schätzer und den James-Stein Schätzer im niedrig-dimensionalen Setting, für den Minimum-norm Interpolator im hoch-dimensionalen Fall und für den Ridge Schätzer unabhängig von der Anzahl der Regressoren erfüllt sind. Außerdem präsentieren wir ein Beispiel im Fall von binärer Klassifizierung, in dem der dazugehörige Prädiktor ebenfalls diese Eigenschaften erfüllt.
Abstract
(Englisch)
The aim of the present work is to construct prediction intervals via a Jackknife-approach whose coverage probability conditional on the training data is close to its nominal level in finite samples and can be asymptotically valid in high-dimensions. The main innovation is to generalize the results of Steinberger and Leeb (2023, The Annals of Statistics 51.1, 290–311) to a non-continuous response distribution and to the case of non-linear models. More specifically, this work is split into four parts: in the first part we link the prediction interval's coverage probability to the accuracy of estimating the distribution of the prediction error in different metrics. While in the case of a continuous distribution the Kolmogorov distance is a suitable choice, we introduce the epsilon-variational divergence to deal with the non-continuous case and discuss advantages to the Kolmogorov distance, the Lp-norm and the Lévy metric. Moreover, the usability (i.e. the informativeness) of the epsilon-variational divergence extends to the estimation of other functions of the prediction error, such as the mean-squared prediction error or the mean-absolute prediction error. In the second part of the work, we define an approach based on the Jackknife for the estimation of the prediction error's distribution conditional on the training data. Thirdly, we present upper bounds for the distance between the conditional prediction error's distribution and its estimate measured in terms of different measurements of distance. We state our results both in finite sample and asymptotically. Our results include both the low-dimensional and the high-dimensional case. Moreover, we show that the prediction error's distribution can be estimated consistently if two conditions are fulfilled: the prediction error should be bounded in probability and the prediction algorithm should satisfy a stability condition. In the last part we show that under mild assumptions these two properties are fulfilled for the OLS estimator and the James-Stein estimator in a low-dimensional setting, for the minimum-norm interpolator in high-dimensions and for the ridge regression regardless of the number of regressors. Furthermore, we also present an example in the case of binary classification where the corresponding predictor fulfills these properties.

Schlagwörter

Schlagwörter
(Deutsch)
konditionale prädiktive Inferenz hochdimensionale Statistik Prognoseintervalle Jackknife
Schlagwörter
(Englisch)
conditional predictive inference high-dimensional statistics prediction intervals Jackknife
Autor*innen
Nicolai Amann
Haupttitel (Englisch)
Assumption-lean conditional predictive inference via the Jackknife
Paralleltitel (Deutsch)
Annahmenarme konditionale prädiktive Inferenz mittels des Jackknifes
Publikationsjahr
2023
Umfangsangabe
viii, 107 Seiten
Sprache
Englisch
Beurteiler*innen
Angelika Rohde ,
Arun Kumar Kuchibhotla
Klassifikation
31 Mathematik > 31.73 Mathematische Statistik
AC Nummer
AC16989901
Utheses ID
68502
Studienkennzahl
UA | 794 | 370 | 136 |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1