D-optimal subsampling design for massive data

Reuter, Torsten

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.25673/118653

Langanzeige der Metadaten

DC Element	Wert	Sprache
dc.contributor.referee	Schwabe, Rainer	-
dc.contributor.author	Reuter, Torsten	-
dc.date.accessioned	2025-03-26T07:56:35Z	-
dc.date.available	2025-03-26T07:56:35Z	-
dc.date.issued	2024	-
dc.identifier.uri	https://opendata.uni-halle.de//handle/1981185920/120611	-
dc.identifier.uri	http://dx.doi.org/10.25673/118653	-
dc.description.abstract	Subsampling is a central problem in big data analysis when classical statistical methods are not applicable due to computational limitations. The goal of subsampling is to select an informative subset of the full data that allows the regression parameter to be estimated as precisely as possible. In this thesis, we study subsampling from the perspective of optimal design of experiments. The focus is on massive data with an extraordinarily large number of observations but few covariates. First, we introduce the statistical models we investigate throughout the thesis and give an overview of the relevant optimal design theory. After the introductory chapter, we construct D-optimal subsampling designs in the setting of polynomial regression and Poisson regression in one covariate, as well as multiple linear regression in several covariates. Specific to the given setup, we present equivalence theorems based on convex optimization that establish a representation of the support of the D-optimal subsampling design. We make use of fundamental concepts from optimal design theory and an equivalence theorem from constrained convex optimization. We study theoretical properties of the constructed D-optimal subsampling design. For the given models, location-scale transformations of the covariate and the simultaneous transformation of the D-optimal subsampling design are investigated in order to extend the results for standardized covariates to general covariates. The obtained D-optimal subsampling designs provide simple rules for whether to accept or reject a data point. Throughout the thesis we propose methods of implementation. We study these methods theoretically through efficiency considerations. For multiple linear regression, we present a simulation study comparing our method to others.	eng
dc.description.abstract	Subsampling ist ein zentrales Problem der Big-Data-Analyse, wenn klassische statistische Methoden aufgrund technischer Einschr¨ankungen nicht anwendbar sind. Das Ziel von Subsampling ist es, eine informative Teilmenge der Gesamtdaten auszuw¨ahlen, die eine m¨oglichst pr¨azise Sch¨atzung des Regressionsparameters erlaubt. In dieser Dissertation wird Subsampling aus der Perspektive der optimalen Versuchs- planung betrachtet. Der Schwerpunkt liegt dabei auf ” massive data“ mit außergew¨ohnlich vielen Beobachtungen, aber nur wenigen Kovariablen. Zun¨achst werden die statistischen Modelle, die im Verlauf der Dissertation untersucht werden, vorgestellt sowie ein ¨Uberblick ¨uber die relevante Theorie der optimalen Versuchsplanung gegeben. Nach dem einleitenden Kapitel werden D-optimale Subsampling Designs f¨ur polynomiale und Poisson Regression in einer Kovariablen sowie f¨ur multiple lineare Regression in mehreren Kovariablen konstruiert. F¨ur das jeweilige Modell werden auf konvexer Optimierung basierende ¨Aquivalenzs¨atze pr¨asentiert, die eine Darstellung des Tr¨agers des D-optimalen Subsampling Designs liefern. Dabei werden grundlegenden Konzepten aus der optimalen Versuchsplanung und ein ¨Aquivalenztheorem aus der konvexen Optimierung unter Neben- bedingungen verwendet. Theoretische Eigenschaften der D-optimalen Subsampling Designs wwerden untersucht. F¨ur die gegebenen Modelle werden Lokations-Skalen-Transformationen der Kovariable und die gleichzeitige Transformation des D-optimalen Subsampling Designs betrachtet, um die Ergebnisse f¨ur standardisierte Kovariablen auf allgemeine Kovariablen zu ¨ubertragen. D-optimalen Subsampling Designs bieten einfache Regeln zur Annahme oder Ablehnung eines Datenpunktes. Methoden zur Implementierung von D-optimalen Subsampling Designs werden vorgeschlagen und theoretisch durch Effizienzbetrachtungen untersucht. F¨ur die multiple lineare Regression wird eine, zu anderen Methoden vergleichende, Simulationsstudie pr¨asentiert.	ger
dc.format.extent	VIII, 95 Seiten	-
dc.language.iso	eng	-
dc.rights.uri	https://creativecommons.org/licenses/by-sa/4.0/	-
dc.subject	massive data	eng
dc.subject	D-optimal	eng
dc.subject	Mathematische Statistik	ger
dc.subject.ddc	519.57	-
dc.title	D-optimal subsampling design for massive data	eng
dcterms.dateAccepted	2024	-
dcterms.type	Hochschulschrift	-
dc.type	PhDThesis	-
dc.identifier.urn	urn:nbn:de:gbv:ma9:1-1981185920-1206111	-
local.versionType	acceptedVersion	-
local.publisher.universityOrInstitution	Otto-von-Guericke-Universität Magdeburg, Fakultät für Mathematik	-
local.openaccess	true	-
dc.identifier.ppn	1918871655	-
cbs.publication.displayform	Magdeburg, 2024	-
local.publication.country	XA-DE-ST	-
cbs.sru.importDate	2025-03-26T07:52:27Z	-
local.accessrights.dnb	free	-
Enthalten in den Sammlungen:	Fakultät für Mathematik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Reuter_Torsten_Dissertation_2025.pdf	Dissertation	4.44 MB	Adobe PDF	Öffnen/Anzeigen

Zur Kurzanzeige BibTeX EndNote