Cross-modal Random Network-based fusion for audio-visual continuous emotion recognition
URL | http://edoc.sub.uni-hamburg.de/informatik/volltexte/2024/282/ |
---|---|
Dokumentart: | Master Thesis |
Institut: | Fachbereich Informatik |
Sprache: | Englisch |
Erstellungsjahr: | 2024 |
Publikationsdatum: | 06.12.2024 |
Freie Schlagwörter (Deutsch): | Automatische Emotionserkennung , Maschinelles Lernen , Transformer , Unsicherheitsschätzung |
Freie Schlagwörter (Englisch): | continuous emotion recognition , multi-modal fusion , machine learning , transformer , uncertainty estimation |
DDC-Sachgruppe: | Informatik |
BK - Klassifikation: | 54.00 |
Kurzfassung auf Englisch:
This thesis examines the effectiveness of Cross-modal Random Network Prediction (CRNP) fusion for audio-visual continuous emotion recognition. The method was previously shown to achieve state-of-the-art results in multimodal medical image segmentation. We chose to adapt the CRNP to the task of multi-dimensional emotion regression. Reviewing recent literature on emotion recognition and limitations of naive multi-modal fusion methods, we decided on 3 strong baselines for comparison. After defining the baselines and the proposed method, we evaluated the emotion recognition performance of the CRNP against the baselines on the AffWild2 dataset. Additionally we conducted experiments with added Gaussian noise, to analyze the capabilities of the models to function with unreliable data. Our analysis has shown that the CRNP fusion can be successfully used for continuous emotion recognition, however it was outperformed by attentionbased baselines in nearly all cases. We also found that the fusion mechanism did not provide sufficient benefit over the baselines for noisy data. Experiments analyzing the behavior of the CRNP were however able to show that the uncertainty estimation was correct. We conclude that, even though it performed worse than the baselines, the CRNP’s results are promising for audio-visual emotion recognition. We identified multiple venues for future research that have potential to increase the CRNP’s performance and might help close the gap between it and the examined baselines.
Hinweis zum Urherberrecht
Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:
Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.
Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.