Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/108824
Title: Driver affect recognition from real-world speech data in in-vehicle driving environments
Author(s): Requardt, Alicia Flores
Referee(s): Wendemuth, AndreasLook up in the Integrated Authority File of the German National Library
Jumar, UlrichLook up in the Integrated Authority File of the German National Library
Granting Institution: Otto-von-Guericke-Universität Magdeburg, Fakultät für Elektrotechnik und Informationstechnik
Issue Date: 2022
Extent: xxiii, 296 Seiten
Type: HochschulschriftLook up in the Integrated Authority File of the German National Library
Type: PhDThesis
Exam Date: 2022
Language: English
URN: urn:nbn:de:gbv:ma9:1-1981185920-1107799
Subjects: Sprachverarbeitung
Autonomy in vehicles
Digitale Signalverarbeitung
Abstract: In der heutigen Zeit der zunehmenden Autonomie im Straßenverkehr, gewinnen Systeme zur Erkennung des Fahrerzustandes immer mehr an Bedeutung. Über die Anaylse des Lenkverhaltens und des Blickverhaltens des Fahrers können einige Zustände bereits zum Stand der Technik in der Automobilindustrie gezählt werden. Der tatsächliche intrinsische Zustand des Fahrers, der z.B. durch Feedbacksignale aus Sprache, Mimik oder Gestik wiedergegeben werden kann, wird momentan noch vollständig außer Acht gelassen. Ziel dieser Arbeit ist es, diese Forschungslücke weiter zu schließen, indem die Emotionalität des Fahrers anhand seiner Sprache erkannt und systemseitig berücksichtigt werden kann. Um dieses Ziel zu erreichen, muss die vollständige Prozesskette von der Datenerhebung, über die Datenvoranalyse und ggf. die Durchführung digitaler Signalverarbeitungs-Schritte, bis hin zur Datenklassifizierung und schlussendlich der Bewertung der erhaltenen Ergebnisse im Vergleich zu anderen Forschungsergebnissen aus diesem Bereich, berücksichtigt werden. Die Gesamtheit jedes einzelnen Prozessschrittes muss hierzu dem Leser nähergebracht werden. Dies begründet auch den Umfang der vorliegenden Arbeit. Zu Beginn der Arbeit werden dem Leser folgende drei Forschungshypothesen vorgestellt, die im Laufe der Arbeit wiederholt aufgegriffen werden: 1. Hypothese: Es ist möglich dem Fahrer während der Fahrt naturalistische Emotionen zu induzieren. 2. Hypothese: Es ist möglich Störungen des Sprachsignales zu kompensieren. 3. Hypothese: Falls Hypothese 1 und 2 bestätigt werden, ist es möglich automatisch den emotionalen Zustand des Fahrers anhand prosodischer Sprachmerkmale zu erkennen. Durch die sehr geringe Datenlage in diesem Forschungsgebiet wurden zwei Datenaufnahmen durchgeführt (simuliert und real). Anhand erster simulierter emotionaler Sprachdaten im Fahrzeug konnten erste Erkenntnisse über die Beschaffenheit der Daten und das Potential zur Erkennung des emotionalen Zustandes, erlangt werden. Anhand einer weiteren Datenaufnahme, induzierter Emotionen unter realen Fahrbedingungen, konnten Detailinformationen zur Erkennung von vier Fahrerzuständen ermittelt werden (neutral, positiv, verärgert und ängstlich). Die aufgenommenen Daten wurden, anhand der Selbsteinschätzung des Fahrers (unter Verwendung des Geneva Emotional Wheel und den Self-Assessment Manikins) und einer Auswertung ihrer bio-physiologischen Daten, auf ihre emotionalen Inhalte und ihre Verwendbarkeit validiert. Da realitätsnahe verrauschte Sprachdaten sehr zeitaufwändig in ihrer Generierung sind und zu Beginn der Arbeit noch nicht vorlagen, wurden erste Untersuchungen anhand komprimierter Sprachdaten durchgeführt. Anhand dieser Daten wurde der Effekt digitaler Signalverarbeitungs-Algorithmen auf das Sprachsignal, die Sprach- und Signalqualität und die Erkennung der Emotionen analysiert. Es konnte festgestellt werden, dass die angewendeten Audio-Codecs je nach ihrem designierten Einsatzgebiet unterschiedliche Einflüsse auf die Sprach- und Signalqualität und die Erkennungsleistung der Emotionen haben. Vor allem Codecs, die für die Komprimierung von Musik entwickelt wurden, haben einen geringeren Einfluss auf die Emotionserkennung als Codecs, die für die Telekommunikation entwickelt wurden. Im Fall der Anwendung von Musik-Codecs konnte sogar eine Verbesserung der Erkennungsleistung im Vergleich zu unkomprimierten Sprachdaten erzielt werden. Ähnliche Untersuchungen wurden anhand der simulierten emotionalen Sprache im Fahrzeug durchgeführt, indem die im Original unverrauschten Sprachdaten mit ihren künstlich verrauschten Versionen verglichen wurden. Diese Untersuchung zeigte, dass die Natürlichkeit der Emotionen in der Sprache und die Natürlichkeit der Datenaufnahmen selbst, den Effekt der Fahrgeräusche auf die Signalqualität beeinflusst. Des Weiteren konnte ein eindeutiger Rückgang der Erkennungsleistung im Zusammenhang mit der Abnahme der Signalqualität erkannt werden. Zur weiteren Nutzung der Datenaufnahmen im realen Fahrzeugumfeld wurde eine Annotation der Daten durchgeführt. Dies beinhaltete eine dimensionale und kategoriale Bewertung, die in sich eine hohe Übereinstimmung aufwiesen. Die Ergebnisse zeigen, dass die Emotionen des Fahrers auch in seiner Sprache widergespiegelt wurden und somit als Datenbasis für die automatische Erkennung natürlicher Emotionen im Fahrzeugumfeld genutzt werden können. Aus der (automatischen) Sprachverarbeitung ist bekannt, dass die Anwendung von Sprachverbesserungs-Verfahren (engl. speech enhancement) zu einer bemerkenswerten Erhöhung der Erkennungsraten und des Sprachverständnisses führen kann. Um zu untersuchen, ob dieser Effekt auch einen Einfluss auf die Erkennungsrate der Emotionen hat, wurden Untersuchungen zur Anwendbarkeit dieser Algorithmen auf verrauschter emotionaler Sprache durchgeführt. Es konnte festgestellt werden, dass die Anwendung dieser Verfahren zu einer starken Manipulation des Merkmalsraums führt, die im Vergleich zu verrauschter Sprache jedoch keine Verbesserung der Erkennungsleistung mit sich bringt. Um die Manipulation des Merkmalsraum nicht als zusätzlichen Freiheitsgrad in die Prozesskette mit einfließen zu lassen, wird die Anwendung eines solchen Verfahrens nicht empfohlen. Unter Berücksichtigung der vorangegangenen Ergebnisse wurden schlussendlich zwei unterschiedliche Klassifikationsverfahren angewandt (Support Vector Machines und Random Forests), um die Emotion des Fahrers anhand realer Fahrzeugdaten zu erkennen. Die Klassifizierer wurden dazu in einem leave one speaker out Kreuzvalidierungsverfahren trainiert, optimiert und getestet. Die Optimierung erfolgte dabei durch die Anwendung eines random search-Verfahrens zur Hyper-Parameter- Optimierung, einer wrapper basierten Feature Auswahl und einer gezielten Reduzierung/ Auswahl der verwendeten Sprachdaten aus dem Datensatz. Unter Berücksichtigung all dieser Aspekte, konnte als bester Klassifizierer ein Random Forest entworfen werden, der dazu in der Lage ist, den emotionalen Zustand des Fahrers, im vorliegenden 4-Klassenproblem, mit einer precision von über 52% und einem recall von über 35% zu erkennen.
With an increase of autonomy in vehicles, also the importance of driver state detection systems is becoming more relevant. By analyzing the driver’s steering behaviour and her/ his gaze direction, the modern automotive industry is able to detect a limited number of driver states (e.g. tiredness or attention). The true intrinsic state of the driver, which is, for example, communicated through feedback signals in her/ his speech, facial expressions or gestures, is still being neglected. The goal of this Thesis is to close this research gap by considering the driver’s speech data to detect her/ his emotional state. This does not only include the design of a classifier, but the whole process chain of performing a suitable data collection, pre-processing of said data, implementation of relevant signal processing steps (e.g. speech enhancement) and finally also validating the designed classifier. This broad field of research also reasons the size of the Thesis. At the beginning of the Thesis the following three research hypotheses are introduced to the reader and will accompany her/ him throughout the Thesis: 1. Hypothesis: It is possible to induce naturalistic emotions in the driver, while driving in a real vehicle. 2. Hypothesis: It is possible to compensate effects of speech distortion. 3. Hypothesis: Under the assumption that hypotheses 1 and 2 apply, it is possible to automatically detect the emotional state of the driver by only considering the speech signal of the driver and its prosodic features. Because of the relatively low amount of freely available emotional speech data in in-vehicle environments, two data collections focusing on this noise environment (simulated and real-world) were performed. The simulated data was used to receive first insights on the noisy speech characteristics and its potential to be used to detect the driver’s emotional state. A second real-world data collection was performed afterwards, and used to gain detailed information on the four most relevant emotional states occurring while driving (neutral, positive, angry and anxious). By using the drivers’ self-reports (obtained by utilizing the Geneva Emotional Wheel and the Self-Assessment Manikins) and the recordings of their bio-physiological parameters, it was possible to validate the emotion inducement method and the usability of the collected real-world data. The just mentioned data collections are highly time consuming to conduct and were not available at the start of the Thesis. Therefore, the first investigation presented in this Thesis, was performed on compressed speech data. This degraded data was used to analyze the effects signal-processing can have on the speech signal itself, the signal quality and the ability to correctly classify the emotional state of a speaker. It was identified that, especially for speech emotion recognition, codecs developed for music compression are more suitable than codecs developed for speech compression. In some cases it was even possible to increase the recognition performance by applying music compression algorithms, compared to the recognition performance on uncompressed speech. Similar investigations on noisy speech were performed on the simulated in-vehicle speech data. By comparing the original emotional speech samples with their degraded noisy counter parts, it was possible to identify that the naturalness of the original speech samples plays a decisive role on the effect invehicle noises have on the signal quality. Furthermore, with decreasing signal quality also the recognition performance of the classifier decreased. To verify the usability of the real-world driving data, a further annotation of the speech samples considering their emotional content was needed. This annotation was done utilizing a dimensional (valence vs. arousal) and a categorial (4 considered emotional states) labeling approach. In this process both approaches showed a high consistency in their results. These results show that the emotional state of the driver is also mirrored in the speech signal and that the recorded data is suitable for automatic speech emotion recognition in a real-world driving environment. In case of noisy speech data and (automatic) speech recognition, it is known that by applying speech enhancement algorithms, significant increases in recognition rate and speech understanding can be achieved. To identify if these effects also occur in case of speech emotion recognition, suitable speech enhancement algorithms were applied to the simulated in-vehicle data. It was identified that by applying this method of signal processing steps to the noisy speech samples, the features used for the speech emotion recognition task were altered significantly but the recognition performance was not improved. To prevent this additional factor from influencing the emotion recognition task, it was decided to not apply speech enhancement in the further scope of the Thesis. Finally, by considering and utilizing the above findings, two classification approaches (Support Vector Machines and Random Forest) were used to identify the driver’s emotional state in a real-world driving scenario. By utilizing a leave one speaker out cross-validation scheme the classifiers were trained, optimized and tested. The optimization step included a hyper-parameter optimization using random search, a wrapper based feature selection and an adjusted of the data set, by reducing the data set to a tailored selection of speech samples. With regard to this approach, as best performing classifier for the present four class classification task, a random forest with a precision of over 52% and a recall of over 35% was designed.
URI: https://opendata.uni-halle.de//handle/1981185920/110779
http://dx.doi.org/10.25673/108824
Open Access: Open access publication
License: (CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0(CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0
Appears in Collections:Fakultät für Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
Requardt_Alicia Flores_Dissertation_2022.pdfDissertation8.08 MBAdobe PDFThumbnail
View/Open