Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen:
http://dx.doi.org/10.25673/119197
Titel: | Bildbasierte Situationsanalyse zur intuitiven Mensch-Roboter-Interaktion in dynamischen Umgebungen |
Autor(en): | Hempel, Thorsten |
Gutachter: | Al-Hamadi, Ayoub Nürnberger, Andreas Enzberg, Sebastian von |
Körperschaft: | Otto-von-Guericke-Universität Magdeburg, Fakultät für Elektrotechnik und Informationstechnik |
Erscheinungsdatum: | 2025 |
Umfang: | xv, 159 Seiten |
Typ: | Hochschulschrift![]() |
Art: | Dissertation |
Datum der Verteidigung: | 2025 |
Sprache: | Deutsch |
URN: | urn:nbn:de:gbv:ma9:1-1981185920-1211537 |
Schlagwörter: | Informatik in Beziehung zu Mensch und Gesellschaft Mensch-Roboter-Interaktion |
Zusammenfassung: | Mobile, intelligente Roboter helfen, die Produktivität, Präzision und Effizienz in der Industrie zu
steigern, Arbeitsunfälle und Kosten zu reduzieren und tragen damit gleichzeitig zu einer umwelt-
freundlichen Ressourcenschonung bei. Zusätzlich birgt ihr Einsatz in medizinischen und sozialen
Bereichen erhebliche Potenziale. Sie können die Zusammenarbeit von Hilfsbedürftigen und Helfen-
den unterstützen und so zur Steigerung der Lebensqualität beitragen. Für die Realisierung dieser
Potenziale muss jedoch die intelligente Erfassung des semantischen Aktionsraums und der darin
befindlichen menschlichen Interaktionspartner verbessert werden, um eine kontextbezogene und
intuitive Mensch-Roboter-Interaktionen zu ermöglichen.
Die vorliegende Arbeit befasst sich mit der Entwicklung, Implementierung und Evaluierung bild-
basierter Deep Learning-Methoden, die die soziale Autonomie mobiler Roboter verbessern und
den Informationsgehalt zur Bestimmung adäquater Verhaltensstrategien erhöhen. Sie ist in mehrere
wissenschaftliche Beiträge unterteilt, die sich auf die räumlich-semantische Umgebungsanalyse und
die Analyse menschlicher Interaktionspartner konzentrieren.
Der erste wissenschaftliche Beitrag befasst sich mit der Orientierung mobiler Roboter in komplexen,
dynamischen Umgebungen. Hierfür wird visueller SLAM (Simultaneous Localization and Mapping)
mittels eines Deep Learning-basierten Szenen-Flows erweitert, wodurch eine pixelgenaue Erfassung
dynamischer Bildelemente erzielt und eine signifikante Reduzierung des Trajektoriefehlers erreicht
werden kann. Als Nächstes wird eine neue Methode zur semantischen Kartierung vorgestellt, bei der
rein geometrische Umgebungskarten durch semantische Objekte erweitert werden. Dies verbessert
das kontextuelle Verständnis der Umgebung und ermöglicht das Greifen und Transportieren von Ob-
jekten, während die kartierten Objekte gleichzeitig für die Optimierung der Trajektoriebestimmung
einbezogen werden können.
Zur Analyse von Interaktionspartnern wird eine neue Methode zur Kopfposeschätzung vorgestellt,
welche den gesamten Rotationsbereich abschätzen kann und in Robustheit und Genauigkeit den Stand
der Technik übertrifft. Diese Methode wird im Anschluss mittels eines Multi-Task-Ansatzes mit
einer Blickrichtungsschätzung kombiniert, um Synergien beider Aufgaben auszuschöpfen, welche
zu einer Verbesserung der Generalisierungsfähigkeit des Modells, insbesondere für die Blickrich-
tungsschätzung, führt. Mithilfe eines zusätzlichen Modells wird sich der Detektion von Blickkontakt
aus der Egoperspektive angenommen. Für diesen noch weitgehend unerforschten Bereich wird
eine umfangreiche Datenbank erzeugt, mit deren Hilfe akkurate und robuste Prädiktionsmodelle
erzeugt werden können, welche neben Kopfpose und Blickrichtung nonverbale Interaktionen mit
menschlichen Kooperationspartnern verbessern.
Insgesamt trägt diese Arbeit zur Verbesserung der mobilen Mensch-Roboter-Interaktion bei, indem
sie Lokalisierungsfehler in dynamischen Umgebungen reduziert, semantische Informationen in
die Umgebungserfassung einbettet und Methoden zur Erfassung und Verarbeitung menschlicher
Interaktionspartner entwickelt. Jede der vorgestellten Methoden ist dabei modular gestaltet, sodass
sie sowohl isoliert als auch in anderen Applikationsbereichen eingesetzt werden können. Mobile, intelligent robots can enhance productivity and efficiency in industry, reduce workplace accidents and costs, and thereby contribute to environmentally friendly resource conservation. Additionally, their use in medical and social fields holds significant potential to support collaboration between those in need and caregivers, thus contributing to an improved quality of life. This work focuses on the development, implementation, and evaluation of image-based deep learning methods aimed at improving the social autonomy of mobile robots and enhancing their information content for determining appropriate behavioral strategies. It is divided into several scientific con- tributions that concentrate on spatial-semantic environment perception and the analysis of human interaction partners. The first contribution addresses the orientation of mobile robots in dynamic environments by ex- tending visual SLAM (Simultaneous Localization and Mapping) with deep learning-generated optical flow into a scene flow. This enables fine, pixel-based capture of dynamic image elements and significantly reduces trajectory error. Next, a new method for semantic mapping is presented, where purely geometric environment maps are augmented with semantic objects. This enhances the understanding of the environment and enables the grasping and transporting of objects. For the analysis of interaction partners, a new method for head pose estimation is introduced, which can analyze the entire range of rotation and surpasses the state of the art in robustness and accuracy. This method is subsequently combined with gaze estimation using a multi-task approach to exploit synergies between both tasks, leading to an improvement in the model’s generalization ability, especially for gaze estimation. An additional model addresses gaze contact detection from an ego perspective. For this largely unexplored area, an extensive database is created, enabling the development of accurate and robust prediction models that improve non-verbal interactions with human cooperation partners by incorporating head pose and gaze direction. Overall, this work contributes to the enhancement of human-robot interaction (HRI) by reducing localization errors in dynamic environments, embedding semantic information into environment perception, and developing methods for capturing and processing human interaction partners. Each of the presented methods is modular in design, allowing them to be used both in isolation and in other application areas. Cobots (collaborative robots) are robots capable of interacting directly and safely with humans. Unlike conventional industrial robots, which often work in enclosed areas, cobots can be used in close proximity to humans. They are increasingly used in industry to automate physically demanding or monotonous tasks, thus increasing productivity, and also offer the possibility for use in other areas such as healthcare and even private use as personal assistants. To fully exploit the potential of cobots, their abilities for autonomous navigation and interaction must be further improved. Special challenges lie in environment sensing and in the registration of nonverbal communication signals to enable efficient human-robot interactions without misunderstandings. This dissertations presents a series of new methods that optimize human-robot interaction (HRI) through image-based techniques. These include algorithms for reducing localization errors of mobile cobots in dynamic environments, embedding semantic information into their environment sensing, and various methods for sensing and processing human interaction partners to enable more efficient and intuitive collaborations. |
Anmerkungen: | Literaturverzeichnis: Seite 133-160 |
URI: | https://opendata.uni-halle.de//handle/1981185920/121153 http://dx.doi.org/10.25673/119197 |
Open-Access: | ![]() |
Nutzungslizenz: | ![]() |
Enthalten in den Sammlungen: | Fakultät für Elektrotechnik und Informationstechnik |
Dateien zu dieser Ressource:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
Hempel_Thorsten_Dissertation_2025.pdf | Dissertation | 43.71 MB | Adobe PDF | ![]() Öffnen/Anzeigen |