Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/118637
Full metadata record
DC FieldValueLanguage
dc.contributor.refereeTönnies, Klaus-Dietz-
dc.contributor.refereeBinder, Alexander-
dc.contributor.authorBolten, Tobias-
dc.date.accessioned2025-03-25T13:22:42Z-
dc.date.available2025-03-25T13:22:42Z-
dc.date.issued2024-
dc.identifier.urihttps://opendata.uni-halle.de//handle/1981185920/120595-
dc.identifier.urihttp://dx.doi.org/10.25673/118637-
dc.description.abstractDie Weltbevölkerung wächst und mit ihr, durch eine einhergehende Urbanisierung, der Anteil der Menschen, die in städtischen Gebieten leben. Bei der Planung des öffentlichen Raumes wird die tatsächliche Nutzung jedoch bisher nur rudimentär berücksichtigt. Um hier Abhilfe zu schaf- fen, ist ein Wandel zu einem nutzerorientierten Gestaltungs- und Planungsansatz unabdingbar. Die Kenntnis über die Anzahl der Nutzer und deren Nutzung des Raumes ist für einen solchen Übergang entscheidend. Derzeit werden diese Daten hauptsächlich durch manuelle Beobach- tungen erhoben. Die Durchführung derartiger Beobachtungen ist jedoch mit einem hohen Zeit- und Arbeitsaufwand verbunden und erfolgt daher in der Regel nur für kurze Zeiträume. Sensorbasierte Monitoringsysteme können diese Situation verbessern, indem sie Langzeitbe- obachtungen und automatisierte Analysen ermöglichen. Das Ziel dieser Arbeit ist es daher, ein technisches Monitoringsystem als Proof-of-Concept zu entwickeln, das eine evidenzbasierte Datenbasis über die Flächennutzung für stadtplanerische Prozesse liefern kann. Der Einsatz solcher Systeme ist jedoch, insbesondere in Deutschland, durch gesetzliche Vorgaben stark ein- geschränkt. Diese erschweren den Einsatz herkömmlicher bildgebender Sensoren in Form von Videoüberwachungsanlagen im öffentlichen Raum. In Anbetracht dieser Einschränkungen wird ein System auf der Grundlage von Dynamic Vision Sensors (DVS) entwickelt. Diese optischen Sensoren unterscheiden sich in ihrem Funk- tionsparadigma grundlegend von herkömmlichen bildgebenden Sensoren. Die Pixel dieser Sen- soren werden durch lokale Helligkeitsänderungen getriggert, anstatt eine feste Verschlusszeit oder Bildrate zu verwenden. Änderungen der logarithmischen Pixelhelligkeit werden unabhängig voneinander erkannt und asynchron übertragen. Das Resultat ist ein räumlich dünn besetzter, mehrdimensionaler Ausgabestrom mit hoher zeitlicher Auflösung und variabler Datenrate an- stelle einer Sequenz konventioneller 2D-Bilder. Dies ermöglicht eine Verarbeitung ohne direkte Berücksichtigung von Grauwerten oder Farbwerten. Die Sensorausgabe erfolgt in Form von separaten Events, die die detektierten Helligkeits- änderungen beschreiben. Dies stellt im Sinne der klassischen Computer Vision eine unkonven- tionelle Form dar. Eine Vielzahl von Repräsentationsformen, einschließlich 2D-Frames, Voxel- Gitter und 3D Space-Time Event Clouds, eignen sich für deren Verarbeitung. Derzeit existiert keine etablierte Standardrepräsentation, die für verschiedene Anwendungen verwendet wird. Daher werden diese verschiedenen Repräsentationen in Verbindung mit unterschiedlichen Deep Learning basierten Verarbeitungsansätzen eingehend miteinander verglichen. Der Schwerpunkt liegt dabei auf der Repräsentation in Form von Event Clouds, da diese Eventrepräsentation nahezu nativ aus der Sensorausgabe erstellt werden kann, während die volle Auflösung und “Sparsity” des Signals erhalten bleibt. Es wird ein DVS-basiertes Monitoringsystem entwickelt. Dabei werden verschiedene Heraus- forderungen bei der Verarbeitung berücksichtigt, insbesondere die im Signal enthaltenen Um- welteinflüsse, die aus dem realen Messaufbau im Freien resultieren. Im Rahmen einer Lang- zeitbeobachtung eines öffentlichen Freiraums erfolgt ein Vergleich der Repräsentationen für die Aufgabenstellung der semantischen Segmentierung, sowie der Instanzsegmentierung. Das ent- wickelte System umfasst dabei die gesamte Verarbeitungspipeline von der Datenerfassung und Filterung über die Objektsegmentierung bis hin zur Visualisierung der Ergebnisse. Anhand von Aufzeichnungen wird gezeigt, dass eine entwickelte Auswahl von Zeitfenstern mit Events, die durch eine vordefinierte Menge von Objektklassen ausgelöst werden, eine hohe Qualität bei gleichzeitig geringem Bedarf an Rechenressourcen aufweist. Darüber hinaus wird gezeigt, dass das System in der Lage ist, die Anzahl der Nutzer mit hoher Genauigkeit zu bestimmen, indem die ermittelten Ergebnisse mit Referenzzählungen verglichen werden, die von menschlichen Annotatoren erstellt wurden. Eine Heatmap-Visualisierung wird entwickelt, um die räumliche Verteilung der Nutzung zusammenzufassen. Diese Visualisierung wird getestet und erweist sich als intuitiv verständlich für die Stakeholder, an die sich das Monitoring richtet.ger
dc.description.abstractThe world’s population is growing, and with it the proportion of people living in urban areas. Currently, the actual utilization of urban public spaces is only rudimentarily considered in their planning. To address this, a shift towards a user-oriented design approach is essential. Knowledge about the number of users and their spatial distribution within the space is crucial to enable such a transition. However, manual observation is currently the primary method used to collect such data. These observations are generally time-consuming and labor-intensive, and are therefore typically conducted only for short periods of time. Sensor-based monitoring systems can improve this situation by enabling long-term observations and automated analysis. Thus, the objective of this work is to develop a technical monitoring system as a proof-of-concept that can create an evidence-based database on the long-term use of public space as a basis for decision-making in urban planning processes. However, the use of such systems is subject to legal requirements, which are particularly strict in Germany. These regulations make the use of traditional image sensors in the form of CCTV systems in public spaces very difficult. Addressing these limitations, a system based on Dynamic Vision Sensors (DVS), also known as event cameras, is developed. These optical sensors are fundamentally different from con- ventional frame-based sensors due to their underlying operating paradigm. The sensor’s pixels are triggered by changes in brightness, rather than using a fixed exposure time or frame rate. Changes in logarithmic pixel brightness are detected independently and transmitted asyn- chronously. The result is a spatially sparse, multidimensional output stream of high temporal resolution at a variable data rate, instead of a sequence of traditional 2D frames. This allows processing without direct consideration of any gray or color values in software. The output, in the form of separate events describing the detected changes in brightness, is unconventional in terms of classical computer vision, as it is spatially sparse, unordered, and asynchronous. For processing, these events can be represented in a variety of data structures, including 2D frames, voxel grids, and 3D space-time event clouds. Currently, there is no de facto standard representation that is commonly used for different processing tasks. There- fore, these different representations, coupled with different deep learning-based processing approaches, are extensively compared. The focus of this work is on event cloud representa- tions, since this data structure is built almost natively from the sensor output, while preserving the full resolution and sparsity of the signal. A DVS-based monitoring system is developed and evaluated. For this application, differ- ent processing challenges are considered, including environmental influences contained in the sensor signal resulting from the real-world outdoor measurement setup. In the context of a performed long-term monitoring of a public outdoor space, a comparison is conducted with re- spect to the application task of creating semantic and instance segmentations. The developed monitoring system covers the entire processing pipeline from data acquisition and filtering to object segmentation and visualization of the results. Based on recordings acquired during the conducted long-term outdoor monitoring, a se- lection of temporal segments containing events triggered by a predefined set of object classes is shown to be of high quality, while requiring low computational resources on-site. Further- more, the system’s ability to estimate the user volume in the recorded data is shown to be highly accurate by comparison with reference counts generated by multiple human annotators. A heat map visualization is developed and evaluated to aggregate details about the spatial distribution of usage. This visualization is tested and found to be intuitively understandable by the stakeholders for whom the monitoring is intended.eng
dc.format.extentvii, 273 Seiten-
dc.language.isoeng-
dc.rights.urihttps://creativecommons.org/licenses/by-sa/4.0/-
dc.subjectMaschinelles Sehenger
dc.subjectNachrichtenübertragungger
dc.subject.ddc006.25-
dc.titleDynamic vision sensors in long-term monitoring systems : object detection and segmentation in real-world outdoor scenarioseng
dcterms.dateAccepted2024-
dcterms.typeHochschulschrift-
dc.typePhDThesis-
dc.identifier.urnurn:nbn:de:gbv:ma9:1-1981185920-1205959-
local.versionTypeacceptedVersion-
local.publisher.universityOrInstitutionOtto-von-Guericke-Universität Magdeburg, Fakultät für Informatik-
local.openaccesstrue-
dc.identifier.ppn1920525475-
cbs.publication.displayformMagdeburg, 2024-
local.publication.countryXA-DE-ST-
cbs.sru.importDate2025-03-25T13:19:33Z-
local.accessrights.dnbfree-
Appears in Collections:Fakultät für Informatik

Files in This Item:
File Description SizeFormat 
Bolten_Tobias_Dissertation_2025.pdfDissertation61.53 MBAdobe PDFThumbnail
View/Open