Please use this identifier to cite or link to this item:
http://dx.doi.org/10.25673/118969
Title: | Toward accurate, reliable and efficient gaze estimation |
Author(s): | Abdelrahman, Ahmed Awadalla Ahmed Soliman |
Referee(s): | Al-Hamadi, Ayoub |
Granting Institution: | Otto-von-Guericke-Universität Magdeburg, Fakultät für Elektrotechnik und Informationstechnik |
Issue Date: | 2025 |
Extent: | XVIII, 152 Seiten |
Type: | Hochschulschrift![]() |
Type: | PhDThesis |
Exam Date: | 2025 |
Language: | English |
URN: | urn:nbn:de:gbv:ma9:1-1981185920-1209259 |
Subjects: | Maschinelles Sehen gaze estimation Deep-Learning Blickrichtungsschätzungsmethoden L2CS-Net |
Abstract: | Gaze estimation has become increasingly vital across various fields, such as human-
computer interaction, autonomous systems, and assistive technologies. It plays a fun-
damental role in interpreting human focus and intentions, improving user experience,
promoting accessibility, and ensuring safety. By accurately determining the direction
of gaze, interfaces and devices can become significantly more intuitive, enriching in-
teractions between humans and machines. However, accurate gaze estimation faces
challenges, especially in unconstrained settings, due to variability in lighting, head
poses, facial expressions, and occlusions. Traditional methods struggle with real-world
applicability, as they require specialized hardware and controlled environments. Deep
learning, particularly Convolutional Neural Networks (CNNs), has improved gaze es-
timation accuracy by handling complex and high-dimensional data. However, robust
gaze estimation requires careful consideration of network architecture, loss functions,
and the learning process to manage the complexities of gaze datasets.
Despite advances in gaze estimation using CNNs, several significant challenges re-
main. Ensuring high accuracy is difficult due to the need to extract fine-grained gaze
features from facial images, compounded by individual anatomical differences and sub-
jective biases. Achieving reliability in cross-dataset evaluations is also challenging due
to variability in datasets, the complexity of dataset collection, and annotation. Ad-
ditionally, high computational costs pose a challenge, especially in contexts requiring
real-time performance and multimodal data integration. This thesis aims to develop
a gaze estimation model that addresses these challenges by achieving high balance
between accuracy, reliability, and efficiency. This model should be able to estimate
gaze accurately within dataset settings, maintain performance across diverse datasets,
and operate in real-time using available computational resources effectively.
A significant contribution of this thesis is a comprehensive survey of both con-
ventional and deep learning-based gaze estimation methods. The survey categorizes
existing methods into conventional and deep learning-based approaches, spotlighting
three principal conventional techniques: model-based, feature-based, and appearance-
based. This survey critically examines the progression and efficacy of existing deep
learning gaze estimation methods, identifying their strengths and limitations. It high-
lights the importance of validating these models against robust and diverse datasets
that accurately reflect real-world conditions, and reviews critical benchmark datasets
used to ensure model reliability and effectiveness across various environments.
Then, this thesis presents L2CS-Net to improve the accuracy of gaze estimation.
It features a dual-branch CNN architecture that separately predicts horizontal and vertical gaze angles with a multi-loss approach, incorporating both classification and
regression losses. This design allows for precise learning of discriminative features
specific to each angle by separating prediction tasks into distinct fully connected layers.
Moreover, the multi-loss approach optimizes the model to leverage the strengths of
both classification for coarse gaze direction estimation and regression for fine-grained
predictions, significantly enhancing overall accuracy.
Further, the proposed MTGH-Net improves the reliability of gaze estimation by
integrating gaze and head pose estimation into a single multi-task learning frame-
work. It tackles the gaze generalization challenge by employing advanced training
approach that utilizes two separate datasets, one for gaze and the other for head
pose. This method allows MTGH-Net to benefit from the increased data from these
diverse datasets, leading to enhanced understanding of unseen data and more robust
representations for both tasks. Furthermore, MTGH-Net introduces a simplified and
efficient 6D-parameter rotation matrix representation coupled with a geodesic-based
loss function for both gaze and head pose estimation tasks to overcome the disconti-
nuity problem inherent in traditional gaze representation methods and ensuring the
model’s learning process is not biased toward either task.
Additionally, the development of MGAZE-Net introduces an innovative solution
to balance performance with computational efficiency. This novel and lightweight
CNN architecture is augmented with a progressive combination of attention mecha-
nisms, including Squeeze-and-Excitation (SE), Convolutional Block Attention Module
(CBAM), and Coordinate Attention (CA). These mechanisms are strategically de-
signed to systematically emphasize important gaze information by capturing local
and global spatial relationships within facial images. The strategic placement of these
mechanisms allows MGAZE-Net to extract fine-grained features relevant to gaze es-
timation with remarkable efficiency, avoiding the computational overhead typically
associated with deep CNN models and transformers.
All of the models proposed in this thesis undergo extensive evaluation and ablation
studies, which have been shown to provide the best balance between performance and
efficiency over state-of-the-art methods. These contributions collectively fulfill the goal
of designing a model capable of estimating gaze with higher accuracy, reliability, and
efficiency compared to existing methods, establishing a new benchmark in this field. Die Bestimmung der Blickrichtung wird in einer Vielzahl von Bereichen wie der Mensch- Computer-Interaktion, autonomen Systemen und unterstützenden Technologien zu- nehmend wichtig. Sie spielt eine grundlegende Rolle bei der Interpretation menschli- cher Aufmerksamkeit und Absichten und verbessert so die Benutzererfahrung, fördert die Zugänglichkeit und gewährleistet die Sicherheit. Durch die genaue Bestimmung der Blickrichtung können Schnittstellen und Geräte wesentlich intuitiver gestaltet und die Interaktion zwischen Menschen und Maschinen erheblich bereichert werden. Ei- ne exakte Schätzung der Blickrichtung ist jedoch eine Herausforderung, vor allem in unbeschränkten Umgebungen, da hier die Beleuchtung, Kopfhaltung, Mimik und ver- deckte Bereiche variieren. Herkömmliche Methoden sind in der realen Welt nur schwer anwendbar, da sie spezielle Hardware und kontrollierte Umgebungen erfordern. Deep Learning, insbesondere Convolutional Neural Networks (CNNs), haben die Genau- igkeit der Blickschätzung durch die Verarbeitung komplexer und hochdimensionaler Daten verbessert. Eine effektive Anwendung erfordert jedoch eine sorgfältige Prüfung der Netzwerkarchitektur, der Verlustfunktionen und des Lernprozesses, um die Kom- plexität der Ausgangsdaten der Blickrichtungsbestimmung zu verarbeiten. Trotz der Fortschritte bei CNNs gibt es nach wie vor einige große Herausforderungen, darunter die Genauigkeit, Zuverlässigkeit und Effizienz der Bestimmung der Blick- richtung. Die Gewährleistung einer hohen Genauigkeit ist schwierig, da detaillierte Blickmerkmale aus Gesichtsbildern extrahiert werden müssen, was durch individuelle anatomische Unterschiede und subjektive Verzerrungen erschwert wird. Zuverlässigkeit in der Evaluierung über verschiedene Datensätze hinweg zu erreichen ist aufgrund der Variabilität der Datensätze, der Komplexität der Datensatzerfassung und -annotation sowie des Zusammenspiels von Augen- und Kopfbewegungen eine Herausforderung. Darüber hinaus stellt der hohe Rechenaufwand eine Herausforderung dar, vor allem in Kontexten, die Echtzeitleistung und multimodale Datenintegration erfordern. Ziel dieser Arbeit ist es, ein Modell zur Schätzung der Blickrichtung zu entwickeln, das die- sen Herausforderungen durch eine hohe Balance von Genauigkeit, Zuverlässigkeit und Effizienz begegnet. Das Modell soll in der Lage sein, die Blickrichtung innerhalb von Datensatzumgebungen genau zu schätzen, die Leistung über verschiedene Datensätze hinweg beizubehalten und in Echtzeit mit den verfügbaren Rechenressourcen effektiv zu arbeiten. Ein wesentlicher Beitrag dieser Arbeit ist ein umfassender Überblick über konven- tionelle und Deep-Learning-basierte Blickrichtungsschätzungsmethoden. Die Übersicht kategorisiert die existierenden Methoden in konventionelle und Deep-Learning-basierte Ansätze, wobei die drei wichtigsten konventionellen Techniken hervorgehoben wer- den: modellbasierte, merkmalsbasierte und erscheinungsbasierte Methoden. Die Stu- die untersucht kritisch die Entwicklung und Wirksamkeit bestehender Deep-Learning- Methoden zur Blickrichtungsschätzung und identifiziert deren Stärken und Grenzen. Es wird hervorgehoben, wie wichtig es ist, diese Modelle anhand von robusten und viel- fältigen Datensätzen zu validieren, die die realen Bedingungen genau widerspiegeln, und es werden kritische Benchmark-Datensätze überprüft, die verwendet werden, um die Zuverlässigkeit und Effektivität des Modells in verschiedenen Umgebungen sicher- zustellen. In dieser Arbeit wird das L2CS-Net zur Verbesserung der Genauigkeit der Blickrich- tungsschätzung vorgestellt. Es verfügt über eine CNN-Architektur mit zwei Verzwei- gungen, die horizontale und vertikale Blickwinkel separat mit einem Multi-Loss-Ansatz vorhersagt, der sowohl Klassifikations- als auch Regressionsverluste beinhaltet. Dieses Design ermöglicht ein präzises Lernen von Unterscheidungsmerkmalen, die für jeden Winkel spezifisch sind, indem die Vorhersageaufgaben in verschiedene voll verbun- dene Schichten aufgeteilt werden. Darüber hinaus optimiert der Multi-Loss-Ansatz das Modell, um die Stärken sowohl der Klassifikation für die grobe Schätzung der Blickrichtung als auch der Regression für detaillierte Vorhersagen zu nutzen, was die Gesamtgenauigkeit deutlich erhöht. Darüber hinaus verbessert das vorgeschlagene MTGH-Netz die Zuverlässigkeit der Blickrichtungsschätzung durch die Integration von Blickrichtungs- und Kopfposen- schätzung in einem einzigen Multi-Task-Lernsystem. Der Herausforderung der Gene- ralisierung der Blickrichtung wird durch einen fortschrittlichen Trainingsansatz be- gegnet, indem zwei separate Datensätze verwendet werden, einer für die Blickrichtung und der andere für die Kopfhaltung. Diese Methode ermöglicht es dem MTGH-Net, von der größeren Anzahl an Daten aus diesen unterschiedlichen Datensätzen zu pro- fitieren, was zu einem besseren Verständnis von ungesehenen Daten und robusteren Repräsentationen für beide Aufgaben führt. Darüber hinaus führt das MTGH-Net ei- ne vereinfachte und effiziente 6D-Parameter-Rotationsmatrix-Darstellung ein. Diese ist mit einer geodätisch basierten Verlustfunktion sowohl für Blickrichtung- als auch für Kopfposenschätzungsaufgaben gekoppelt, um das Diskontinuitätsproblem zu über- winden und um sicherzustellen, dass der Lernprozess des Modells nicht für eine der beiden Aufgaben voreingenommen ist. Zudem stellt die Entwicklung von MGAZE-Net eine innovative Lösung dar, die ein Gleichgewicht zwischen Leistung und Recheneffizienz schafft. Diese neue und schlanke CNN-Architektur wird durch eine fortschrittliche Kombination von Aufmerksamkeits- mechanismen ergänzt, darunter Squeeze-and-Excitation (SE), Convolutional Block At- tention Module (CBAM) und Coordinate Attention (CA). Diese Mechanismen sind strategisch so konzipiert, dass sie systematisch wichtige Informationen zur Blickrich- tung hervorheben, indem sie sowohl lokale als auch globale räumliche Beziehungen innerhalb von Gesichtsbildern erfassen. Die strategische Platzierung dieser Mechanismen ermöglicht es MGAZE-Net, detaillierte Merkmale, die für die Abschätzung der Blickrichtung relevant sind, mit bemerkenswerter Effizienz zu extrahieren und dabei zusätzlichen Rechenaufwand zu vermeiden, der typischerweise mit tiefen CNN- Modellen und Transformatoren verbunden ist. Alle in dieser Arbeit vorgestellten Modelle wurden umfangreichen Evaluierungs- und Ablationsstudien unterzogen, wobei sich herausstellte, dass sie ein optimales Gleich- gewicht zwischen Leistung und Effizienz im Vergleich zu Methoden auf dem aktuellen Stand der Technik bieten. Gemeinsam erreichen diese Beiträge erfolgreich das Ziel, ein Modell zu entwickeln, das in der Lage ist, Blickrichtungen mit optimaler Genauigkeit, Zuverlässigkeit und Effizienz abzuschätzen. |
Annotations: | Literaturverzeichnis: Seite 131-152 |
URI: | https://opendata.uni-halle.de//handle/1981185920/120925 http://dx.doi.org/10.25673/118969 |
Open Access: | ![]() |
License: | ![]() |
Appears in Collections: | Fakultät für Elektrotechnik und Informationstechnik |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Abdelrahman,_Ahmed_Awadalla_Ahmed_Soliman_Dissertation_2025.pdf | Dissertation | 2.81 MB | Adobe PDF | ![]() View/Open |