Toward accurate, reliable and efficient gaze estimation

Abdelrahman, Ahmed Awadalla Ahmed Soliman

Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/118969

Title:	Toward accurate, reliable and efficient gaze estimation
Author(s):	Abdelrahman, Ahmed Awadalla Ahmed Soliman
Referee(s):	Al-Hamadi, Ayoub
Granting Institution:	Otto-von-Guericke-Universität Magdeburg, Fakultät für Elektrotechnik und Informationstechnik
Issue Date:	2025
Extent:	XVIII, 152 Seiten
Type:	Hochschulschrift
Type:	PhDThesis
Exam Date:	2025
Language:	English
URN:	urn:nbn:de:gbv:ma9:1-1981185920-1209259
Subjects:	Maschinelles Sehen gaze estimation Deep-Learning Blickrichtungsschätzungsmethoden L2CS-Net
Abstract:	Gaze estimation has become increasingly vital across various fields, such as human- computer interaction, autonomous systems, and assistive technologies. It plays a fun- damental role in interpreting human focus and intentions, improving user experience, promoting accessibility, and ensuring safety. By accurately determining the direction of gaze, interfaces and devices can become significantly more intuitive, enriching in- teractions between humans and machines. However, accurate gaze estimation faces challenges, especially in unconstrained settings, due to variability in lighting, head poses, facial expressions, and occlusions. Traditional methods struggle with real-world applicability, as they require specialized hardware and controlled environments. Deep learning, particularly Convolutional Neural Networks (CNNs), has improved gaze es- timation accuracy by handling complex and high-dimensional data. However, robust gaze estimation requires careful consideration of network architecture, loss functions, and the learning process to manage the complexities of gaze datasets. Despite advances in gaze estimation using CNNs, several significant challenges re- main. Ensuring high accuracy is difficult due to the need to extract fine-grained gaze features from facial images, compounded by individual anatomical differences and sub- jective biases. Achieving reliability in cross-dataset evaluations is also challenging due to variability in datasets, the complexity of dataset collection, and annotation. Ad- ditionally, high computational costs pose a challenge, especially in contexts requiring real-time performance and multimodal data integration. This thesis aims to develop a gaze estimation model that addresses these challenges by achieving high balance between accuracy, reliability, and efficiency. This model should be able to estimate gaze accurately within dataset settings, maintain performance across diverse datasets, and operate in real-time using available computational resources effectively. A significant contribution of this thesis is a comprehensive survey of both con- ventional and deep learning-based gaze estimation methods. The survey categorizes existing methods into conventional and deep learning-based approaches, spotlighting three principal conventional techniques: model-based, feature-based, and appearance- based. This survey critically examines the progression and efficacy of existing deep learning gaze estimation methods, identifying their strengths and limitations. It high- lights the importance of validating these models against robust and diverse datasets that accurately reflect real-world conditions, and reviews critical benchmark datasets used to ensure model reliability and effectiveness across various environments. Then, this thesis presents L2CS-Net to improve the accuracy of gaze estimation. It features a dual-branch CNN architecture that separately predicts horizontal and vertical gaze angles with a multi-loss approach, incorporating both classification and regression losses. This design allows for precise learning of discriminative features specific to each angle by separating prediction tasks into distinct fully connected layers. Moreover, the multi-loss approach optimizes the model to leverage the strengths of both classification for coarse gaze direction estimation and regression for fine-grained predictions, significantly enhancing overall accuracy. Further, the proposed MTGH-Net improves the reliability of gaze estimation by integrating gaze and head pose estimation into a single multi-task learning frame- work. It tackles the gaze generalization challenge by employing advanced training approach that utilizes two separate datasets, one for gaze and the other for head pose. This method allows MTGH-Net to benefit from the increased data from these diverse datasets, leading to enhanced understanding of unseen data and more robust representations for both tasks. Furthermore, MTGH-Net introduces a simplified and efficient 6D-parameter rotation matrix representation coupled with a geodesic-based loss function for both gaze and head pose estimation tasks to overcome the disconti- nuity problem inherent in traditional gaze representation methods and ensuring the model’s learning process is not biased toward either task. Additionally, the development of MGAZE-Net introduces an innovative solution to balance performance with computational efficiency. This novel and lightweight CNN architecture is augmented with a progressive combination of attention mecha- nisms, including Squeeze-and-Excitation (SE), Convolutional Block Attention Module (CBAM), and Coordinate Attention (CA). These mechanisms are strategically de- signed to systematically emphasize important gaze information by capturing local and global spatial relationships within facial images. The strategic placement of these mechanisms allows MGAZE-Net to extract fine-grained features relevant to gaze es- timation with remarkable efficiency, avoiding the computational overhead typically associated with deep CNN models and transformers. All of the models proposed in this thesis undergo extensive evaluation and ablation studies, which have been shown to provide the best balance between performance and efficiency over state-of-the-art methods. These contributions collectively fulfill the goal of designing a model capable of estimating gaze with higher accuracy, reliability, and efficiency compared to existing methods, establishing a new benchmark in this field. Die Bestimmung der Blickrichtung wird in einer Vielzahl von Bereichen wie der Mensch- Computer-Interaktion, autonomen Systemen und unterstützenden Technologien zu- nehmend wichtig. Sie spielt eine grundlegende Rolle bei der Interpretation menschli- cher Aufmerksamkeit und Absichten und verbessert so die Benutzererfahrung, fördert die Zugänglichkeit und gewährleistet die Sicherheit. Durch die genaue Bestimmung der Blickrichtung können Schnittstellen und Geräte wesentlich intuitiver gestaltet und die Interaktion zwischen Menschen und Maschinen erheblich bereichert werden. Ei- ne exakte Schätzung der Blickrichtung ist jedoch eine Herausforderung, vor allem in unbeschränkten Umgebungen, da hier die Beleuchtung, Kopfhaltung, Mimik und ver- deckte Bereiche variieren. Herkömmliche Methoden sind in der realen Welt nur schwer anwendbar, da sie spezielle Hardware und kontrollierte Umgebungen erfordern. Deep Learning, insbesondere Convolutional Neural Networks (CNNs), haben die Genau- igkeit der Blickschätzung durch die Verarbeitung komplexer und hochdimensionaler Daten verbessert. Eine effektive Anwendung erfordert jedoch eine sorgfältige Prüfung der Netzwerkarchitektur, der Verlustfunktionen und des Lernprozesses, um die Kom- plexität der Ausgangsdaten der Blickrichtungsbestimmung zu verarbeiten. Trotz der Fortschritte bei CNNs gibt es nach wie vor einige große Herausforderungen, darunter die Genauigkeit, Zuverlässigkeit und Effizienz der Bestimmung der Blick- richtung. Die Gewährleistung einer hohen Genauigkeit ist schwierig, da detaillierte Blickmerkmale aus Gesichtsbildern extrahiert werden müssen, was durch individuelle anatomische Unterschiede und subjektive Verzerrungen erschwert wird. Zuverlässigkeit in der Evaluierung über verschiedene Datensätze hinweg zu erreichen ist aufgrund der Variabilität der Datensätze, der Komplexität der Datensatzerfassung und -annotation sowie des Zusammenspiels von Augen- und Kopfbewegungen eine Herausforderung. Darüber hinaus stellt der hohe Rechenaufwand eine Herausforderung dar, vor allem in Kontexten, die Echtzeitleistung und multimodale Datenintegration erfordern. Ziel dieser Arbeit ist es, ein Modell zur Schätzung der Blickrichtung zu entwickeln, das die- sen Herausforderungen durch eine hohe Balance von Genauigkeit, Zuverlässigkeit und Effizienz begegnet. Das Modell soll in der Lage sein, die Blickrichtung innerhalb von Datensatzumgebungen genau zu schätzen, die Leistung über verschiedene Datensätze hinweg beizubehalten und in Echtzeit mit den verfügbaren Rechenressourcen effektiv zu arbeiten. Ein wesentlicher Beitrag dieser Arbeit ist ein umfassender Überblick über konven- tionelle und Deep-Learning-basierte Blickrichtungsschätzungsmethoden. Die Übersicht kategorisiert die existierenden Methoden in konventionelle und Deep-Learning-basierte Ansätze, wobei die drei wichtigsten konventionellen Techniken hervorgehoben wer- den: modellbasierte, merkmalsbasierte und erscheinungsbasierte Methoden. Die Stu- die untersucht kritisch die Entwicklung und Wirksamkeit bestehender Deep-Learning- Methoden zur Blickrichtungsschätzung und identifiziert deren Stärken und Grenzen. Es wird hervorgehoben, wie wichtig es ist, diese Modelle anhand von robusten und viel- fältigen Datensätzen zu validieren, die die realen Bedingungen genau widerspiegeln, und es werden kritische Benchmark-Datensätze überprüft, die verwendet werden, um die Zuverlässigkeit und Effektivität des Modells in verschiedenen Umgebungen sicher- zustellen. In dieser Arbeit wird das L2CS-Net zur Verbesserung der Genauigkeit der Blickrich- tungsschätzung vorgestellt. Es verfügt über eine CNN-Architektur mit zwei Verzwei- gungen, die horizontale und vertikale Blickwinkel separat mit einem Multi-Loss-Ansatz vorhersagt, der sowohl Klassifikations- als auch Regressionsverluste beinhaltet. Dieses Design ermöglicht ein präzises Lernen von Unterscheidungsmerkmalen, die für jeden Winkel spezifisch sind, indem die Vorhersageaufgaben in verschiedene voll verbun- dene Schichten aufgeteilt werden. Darüber hinaus optimiert der Multi-Loss-Ansatz das Modell, um die Stärken sowohl der Klassifikation für die grobe Schätzung der Blickrichtung als auch der Regression für detaillierte Vorhersagen zu nutzen, was die Gesamtgenauigkeit deutlich erhöht. Darüber hinaus verbessert das vorgeschlagene MTGH-Netz die Zuverlässigkeit der Blickrichtungsschätzung durch die Integration von Blickrichtungs- und Kopfposen- schätzung in einem einzigen Multi-Task-Lernsystem. Der Herausforderung der Gene- ralisierung der Blickrichtung wird durch einen fortschrittlichen Trainingsansatz be- gegnet, indem zwei separate Datensätze verwendet werden, einer für die Blickrichtung und der andere für die Kopfhaltung. Diese Methode ermöglicht es dem MTGH-Net, von der größeren Anzahl an Daten aus diesen unterschiedlichen Datensätzen zu pro- fitieren, was zu einem besseren Verständnis von ungesehenen Daten und robusteren Repräsentationen für beide Aufgaben führt. Darüber hinaus führt das MTGH-Net ei- ne vereinfachte und effiziente 6D-Parameter-Rotationsmatrix-Darstellung ein. Diese ist mit einer geodätisch basierten Verlustfunktion sowohl für Blickrichtung- als auch für Kopfposenschätzungsaufgaben gekoppelt, um das Diskontinuitätsproblem zu über- winden und um sicherzustellen, dass der Lernprozess des Modells nicht für eine der beiden Aufgaben voreingenommen ist. Zudem stellt die Entwicklung von MGAZE-Net eine innovative Lösung dar, die ein Gleichgewicht zwischen Leistung und Recheneffizienz schafft. Diese neue und schlanke CNN-Architektur wird durch eine fortschrittliche Kombination von Aufmerksamkeits- mechanismen ergänzt, darunter Squeeze-and-Excitation (SE), Convolutional Block At- tention Module (CBAM) und Coordinate Attention (CA). Diese Mechanismen sind strategisch so konzipiert, dass sie systematisch wichtige Informationen zur Blickrich- tung hervorheben, indem sie sowohl lokale als auch globale räumliche Beziehungen innerhalb von Gesichtsbildern erfassen. Die strategische Platzierung dieser Mechanismen ermöglicht es MGAZE-Net, detaillierte Merkmale, die für die Abschätzung der Blickrichtung relevant sind, mit bemerkenswerter Effizienz zu extrahieren und dabei zusätzlichen Rechenaufwand zu vermeiden, der typischerweise mit tiefen CNN- Modellen und Transformatoren verbunden ist. Alle in dieser Arbeit vorgestellten Modelle wurden umfangreichen Evaluierungs- und Ablationsstudien unterzogen, wobei sich herausstellte, dass sie ein optimales Gleich- gewicht zwischen Leistung und Effizienz im Vergleich zu Methoden auf dem aktuellen Stand der Technik bieten. Gemeinsam erreichen diese Beiträge erfolgreich das Ziel, ein Modell zu entwickeln, das in der Lage ist, Blickrichtungen mit optimaler Genauigkeit, Zuverlässigkeit und Effizienz abzuschätzen.
Annotations:	Literaturverzeichnis: Seite 131-152
URI:	https://opendata.uni-halle.de//handle/1981185920/120925 http://dx.doi.org/10.25673/118969
Open Access:	Open access publication
License:	(CC BY 4.0) Creative Commons Attribution 4.0
Appears in Collections:	Fakultät für Elektrotechnik und Informationstechnik

Files in This Item:

File	Description	Size	Format
Abdelrahman,_Ahmed_Awadalla_Ahmed_Soliman_Dissertation_2025.pdf	Dissertation	2.81 MB	Adobe PDF	View/Open

Show full item record BibTeX EndNote