D-optimal subsampling design for massive data

Reuter, Torsten

Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/118653

Title:	D-optimal subsampling design for massive data
Author(s):	Reuter, Torsten
Referee(s):	Schwabe, Rainer
Granting Institution:	Otto-von-Guericke-Universität Magdeburg, Fakultät für Mathematik
Issue Date:	2024
Extent:	VIII, 95 Seiten
Type:	Hochschulschrift
Type:	PhDThesis
Exam Date:	2024
Language:	English
URN:	urn:nbn:de:gbv:ma9:1-1981185920-1206111
Subjects:	massive data D-optimal Mathematische Statistik
Abstract:	Subsampling is a central problem in big data analysis when classical statistical methods are not applicable due to computational limitations. The goal of subsampling is to select an informative subset of the full data that allows the regression parameter to be estimated as precisely as possible. In this thesis, we study subsampling from the perspective of optimal design of experiments. The focus is on massive data with an extraordinarily large number of observations but few covariates. First, we introduce the statistical models we investigate throughout the thesis and give an overview of the relevant optimal design theory. After the introductory chapter, we construct D-optimal subsampling designs in the setting of polynomial regression and Poisson regression in one covariate, as well as multiple linear regression in several covariates. Specific to the given setup, we present equivalence theorems based on convex optimization that establish a representation of the support of the D-optimal subsampling design. We make use of fundamental concepts from optimal design theory and an equivalence theorem from constrained convex optimization. We study theoretical properties of the constructed D-optimal subsampling design. For the given models, location-scale transformations of the covariate and the simultaneous transformation of the D-optimal subsampling design are investigated in order to extend the results for standardized covariates to general covariates. The obtained D-optimal subsampling designs provide simple rules for whether to accept or reject a data point. Throughout the thesis we propose methods of implementation. We study these methods theoretically through efficiency considerations. For multiple linear regression, we present a simulation study comparing our method to others. Subsampling ist ein zentrales Problem der Big-Data-Analyse, wenn klassische statistische Methoden aufgrund technischer Einschr¨ankungen nicht anwendbar sind. Das Ziel von Subsampling ist es, eine informative Teilmenge der Gesamtdaten auszuw¨ahlen, die eine m¨oglichst pr¨azise Sch¨atzung des Regressionsparameters erlaubt. In dieser Dissertation wird Subsampling aus der Perspektive der optimalen Versuchs- planung betrachtet. Der Schwerpunkt liegt dabei auf ” massive data“ mit außergew¨ohnlich vielen Beobachtungen, aber nur wenigen Kovariablen. Zun¨achst werden die statistischen Modelle, die im Verlauf der Dissertation untersucht werden, vorgestellt sowie ein ¨Uberblick ¨uber die relevante Theorie der optimalen Versuchsplanung gegeben. Nach dem einleitenden Kapitel werden D-optimale Subsampling Designs f¨ur polynomiale und Poisson Regression in einer Kovariablen sowie f¨ur multiple lineare Regression in mehreren Kovariablen konstruiert. F¨ur das jeweilige Modell werden auf konvexer Optimierung basierende ¨Aquivalenzs¨atze pr¨asentiert, die eine Darstellung des Tr¨agers des D-optimalen Subsampling Designs liefern. Dabei werden grundlegenden Konzepten aus der optimalen Versuchsplanung und ein ¨Aquivalenztheorem aus der konvexen Optimierung unter Neben- bedingungen verwendet. Theoretische Eigenschaften der D-optimalen Subsampling Designs wwerden untersucht. F¨ur die gegebenen Modelle werden Lokations-Skalen-Transformationen der Kovariable und die gleichzeitige Transformation des D-optimalen Subsampling Designs betrachtet, um die Ergebnisse f¨ur standardisierte Kovariablen auf allgemeine Kovariablen zu ¨ubertragen. D-optimalen Subsampling Designs bieten einfache Regeln zur Annahme oder Ablehnung eines Datenpunktes. Methoden zur Implementierung von D-optimalen Subsampling Designs werden vorgeschlagen und theoretisch durch Effizienzbetrachtungen untersucht. F¨ur die multiple lineare Regression wird eine, zu anderen Methoden vergleichende, Simulationsstudie pr¨asentiert.
URI:	https://opendata.uni-halle.de//handle/1981185920/120611 http://dx.doi.org/10.25673/118653
Open Access:	Open access publication
License:	(CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0
Appears in Collections:	Fakultät für Mathematik

Files in This Item:

File	Description	Size	Format
Reuter_Torsten_Dissertation_2025.pdf	Dissertation	4.44 MB	Adobe PDF	View/Open

Show full item record BibTeX EndNote