Please use this identifier to cite or link to this item:
http://dx.doi.org/10.25673/118653
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.referee | Schwabe, Rainer | - |
dc.contributor.author | Reuter, Torsten | - |
dc.date.accessioned | 2025-03-26T07:56:35Z | - |
dc.date.available | 2025-03-26T07:56:35Z | - |
dc.date.issued | 2024 | - |
dc.identifier.uri | https://opendata.uni-halle.de//handle/1981185920/120611 | - |
dc.identifier.uri | http://dx.doi.org/10.25673/118653 | - |
dc.description.abstract | Subsampling is a central problem in big data analysis when classical statistical methods are not applicable due to computational limitations. The goal of subsampling is to select an informative subset of the full data that allows the regression parameter to be estimated as precisely as possible. In this thesis, we study subsampling from the perspective of optimal design of experiments. The focus is on massive data with an extraordinarily large number of observations but few covariates. First, we introduce the statistical models we investigate throughout the thesis and give an overview of the relevant optimal design theory. After the introductory chapter, we construct D-optimal subsampling designs in the setting of polynomial regression and Poisson regression in one covariate, as well as multiple linear regression in several covariates. Specific to the given setup, we present equivalence theorems based on convex optimization that establish a representation of the support of the D-optimal subsampling design. We make use of fundamental concepts from optimal design theory and an equivalence theorem from constrained convex optimization. We study theoretical properties of the constructed D-optimal subsampling design. For the given models, location-scale transformations of the covariate and the simultaneous transformation of the D-optimal subsampling design are investigated in order to extend the results for standardized covariates to general covariates. The obtained D-optimal subsampling designs provide simple rules for whether to accept or reject a data point. Throughout the thesis we propose methods of implementation. We study these methods theoretically through efficiency considerations. For multiple linear regression, we present a simulation study comparing our method to others. | eng |
dc.description.abstract | Subsampling ist ein zentrales Problem der Big-Data-Analyse, wenn klassische statistische Methoden aufgrund technischer Einschr¨ankungen nicht anwendbar sind. Das Ziel von Subsampling ist es, eine informative Teilmenge der Gesamtdaten auszuw¨ahlen, die eine m¨oglichst pr¨azise Sch¨atzung des Regressionsparameters erlaubt. In dieser Dissertation wird Subsampling aus der Perspektive der optimalen Versuchs- planung betrachtet. Der Schwerpunkt liegt dabei auf ” massive data“ mit außergew¨ohnlich vielen Beobachtungen, aber nur wenigen Kovariablen. Zun¨achst werden die statistischen Modelle, die im Verlauf der Dissertation untersucht werden, vorgestellt sowie ein ¨Uberblick ¨uber die relevante Theorie der optimalen Versuchsplanung gegeben. Nach dem einleitenden Kapitel werden D-optimale Subsampling Designs f¨ur polynomiale und Poisson Regression in einer Kovariablen sowie f¨ur multiple lineare Regression in mehreren Kovariablen konstruiert. F¨ur das jeweilige Modell werden auf konvexer Optimierung basierende ¨Aquivalenzs¨atze pr¨asentiert, die eine Darstellung des Tr¨agers des D-optimalen Subsampling Designs liefern. Dabei werden grundlegenden Konzepten aus der optimalen Versuchsplanung und ein ¨Aquivalenztheorem aus der konvexen Optimierung unter Neben- bedingungen verwendet. Theoretische Eigenschaften der D-optimalen Subsampling Designs wwerden untersucht. F¨ur die gegebenen Modelle werden Lokations-Skalen-Transformationen der Kovariable und die gleichzeitige Transformation des D-optimalen Subsampling Designs betrachtet, um die Ergebnisse f¨ur standardisierte Kovariablen auf allgemeine Kovariablen zu ¨ubertragen. D-optimalen Subsampling Designs bieten einfache Regeln zur Annahme oder Ablehnung eines Datenpunktes. Methoden zur Implementierung von D-optimalen Subsampling Designs werden vorgeschlagen und theoretisch durch Effizienzbetrachtungen untersucht. F¨ur die multiple lineare Regression wird eine, zu anderen Methoden vergleichende, Simulationsstudie pr¨asentiert. | ger |
dc.format.extent | VIII, 95 Seiten | - |
dc.language.iso | eng | - |
dc.rights.uri | https://creativecommons.org/licenses/by-sa/4.0/ | - |
dc.subject | massive data | eng |
dc.subject | D-optimal | eng |
dc.subject | Mathematische Statistik | ger |
dc.subject.ddc | 519.57 | - |
dc.title | D-optimal subsampling design for massive data | eng |
dcterms.dateAccepted | 2024 | - |
dcterms.type | Hochschulschrift | - |
dc.type | PhDThesis | - |
dc.identifier.urn | urn:nbn:de:gbv:ma9:1-1981185920-1206111 | - |
local.versionType | acceptedVersion | - |
local.publisher.universityOrInstitution | Otto-von-Guericke-Universität Magdeburg, Fakultät für Mathematik | - |
local.openaccess | true | - |
dc.identifier.ppn | 1918871655 | - |
cbs.publication.displayform | Magdeburg, 2024 | - |
local.publication.country | XA-DE-ST | - |
cbs.sru.importDate | 2025-03-26T07:52:27Z | - |
local.accessrights.dnb | free | - |
Appears in Collections: | Fakultät für Mathematik |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Reuter_Torsten_Dissertation_2025.pdf | Dissertation | 4.44 MB | Adobe PDF | ![]() View/Open |