Please use this identifier to cite or link to this item:
http://dx.doi.org/10.25673/118653
Title: | D-optimal subsampling design for massive data |
Author(s): | Reuter, Torsten |
Referee(s): | Schwabe, Rainer |
Granting Institution: | Otto-von-Guericke-Universität Magdeburg, Fakultät für Mathematik |
Issue Date: | 2024 |
Extent: | VIII, 95 Seiten |
Type: | Hochschulschrift![]() |
Type: | PhDThesis |
Exam Date: | 2024 |
Language: | English |
URN: | urn:nbn:de:gbv:ma9:1-1981185920-1206111 |
Subjects: | massive data D-optimal Mathematische Statistik |
Abstract: | Subsampling is a central problem in big data analysis when classical statistical methods are
not applicable due to computational limitations. The goal of subsampling is to select an
informative subset of the full data that allows the regression parameter to be estimated as
precisely as possible.
In this thesis, we study subsampling from the perspective of optimal design of experiments.
The focus is on massive data with an extraordinarily large number of observations but few
covariates. First, we introduce the statistical models we investigate throughout the thesis
and give an overview of the relevant optimal design theory.
After the introductory chapter, we construct D-optimal subsampling designs in the
setting of polynomial regression and Poisson regression in one covariate, as well as multiple
linear regression in several covariates. Specific to the given setup, we present equivalence
theorems based on convex optimization that establish a representation of the support of
the D-optimal subsampling design. We make use of fundamental concepts from optimal
design theory and an equivalence theorem from constrained convex optimization. We study
theoretical properties of the constructed D-optimal subsampling design. For the given
models, location-scale transformations of the covariate and the simultaneous transformation
of the D-optimal subsampling design are investigated in order to extend the results for
standardized covariates to general covariates.
The obtained D-optimal subsampling designs provide simple rules for whether to accept
or reject a data point. Throughout the thesis we propose methods of implementation. We
study these methods theoretically through efficiency considerations. For multiple linear
regression, we present a simulation study comparing our method to others. Subsampling ist ein zentrales Problem der Big-Data-Analyse, wenn klassische statistische Methoden aufgrund technischer Einschr¨ankungen nicht anwendbar sind. Das Ziel von Subsampling ist es, eine informative Teilmenge der Gesamtdaten auszuw¨ahlen, die eine m¨oglichst pr¨azise Sch¨atzung des Regressionsparameters erlaubt. In dieser Dissertation wird Subsampling aus der Perspektive der optimalen Versuchs- planung betrachtet. Der Schwerpunkt liegt dabei auf ” massive data“ mit außergew¨ohnlich vielen Beobachtungen, aber nur wenigen Kovariablen. Zun¨achst werden die statistischen Modelle, die im Verlauf der Dissertation untersucht werden, vorgestellt sowie ein ¨Uberblick ¨uber die relevante Theorie der optimalen Versuchsplanung gegeben. Nach dem einleitenden Kapitel werden D-optimale Subsampling Designs f¨ur polynomiale und Poisson Regression in einer Kovariablen sowie f¨ur multiple lineare Regression in mehreren Kovariablen konstruiert. F¨ur das jeweilige Modell werden auf konvexer Optimierung basierende ¨Aquivalenzs¨atze pr¨asentiert, die eine Darstellung des Tr¨agers des D-optimalen Subsampling Designs liefern. Dabei werden grundlegenden Konzepten aus der optimalen Versuchsplanung und ein ¨Aquivalenztheorem aus der konvexen Optimierung unter Neben- bedingungen verwendet. Theoretische Eigenschaften der D-optimalen Subsampling Designs wwerden untersucht. F¨ur die gegebenen Modelle werden Lokations-Skalen-Transformationen der Kovariable und die gleichzeitige Transformation des D-optimalen Subsampling Designs betrachtet, um die Ergebnisse f¨ur standardisierte Kovariablen auf allgemeine Kovariablen zu ¨ubertragen. D-optimalen Subsampling Designs bieten einfache Regeln zur Annahme oder Ablehnung eines Datenpunktes. Methoden zur Implementierung von D-optimalen Subsampling Designs werden vorgeschlagen und theoretisch durch Effizienzbetrachtungen untersucht. F¨ur die multiple lineare Regression wird eine, zu anderen Methoden vergleichende, Simulationsstudie pr¨asentiert. |
URI: | https://opendata.uni-halle.de//handle/1981185920/120611 http://dx.doi.org/10.25673/118653 |
Open Access: | ![]() |
License: | ![]() |
Appears in Collections: | Fakultät für Mathematik |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Reuter_Torsten_Dissertation_2025.pdf | Dissertation | 4.44 MB | Adobe PDF | ![]() View/Open |