Max-Planck-Studie

KI erkennt Emotionen innert Sekunden

Uhr
von Lia Perbo und yzu

KI ist nicht nur künstlich, sondern auch emotional intelligent. Zu diesem Ergebnis kommt ein Forschungsteam des Max-Planck-Instituts für Bildungsforschung, das verschiedene KI-Modelle verglich. Demnach kann KI sekundenschnell Gefühle vorhersagen.

(Source: Tengyart / unsplash.com)
(Source: Tengyart / unsplash.com)

1,5 Sekunden - so lange brauchen Menschen, um in einer Interaktion die Gefühlslage des Gegenübers herauszuspüren. Während künstliche Intelligenz sich derzeit gefühlt in jeglichen denkbaren Bereichen einnistet, schien zumindest die Fähigkeit, Emotionen zu lesen - also die emotionale Intelligenz - bis anhin unantastbar. Ein Hoffnungsschimmer für all jene, die sich Sorgen machen, dass KI ihnen den Job wegnehmen könnte. Diese Hoffnung könnte sich bald in Luft auflösen. 

Ob künstliche Intelligenz ebenfalls emotionale Untertöne erkennt, untersuchte ein Forschungsteam des Max-Planck-Instituts für Bildungsforschung. Das Team um Forschungsleiter Hannes Diemerling zeigte dafür drei verschiedenen KI-Modellen Audiosequenzen mit inhaltlich neutralen Sätzen, die mit einer emotionalen Färbung eingesprochen wurden. Gemäss der Studie vermochten es die Modelle, die 1,5 Sekunden-Sequenzen richtig zu interpretieren. 

Die Modelle schafften es nicht nur, die Gefühle richtig zu erkennen, sondern taten dies auch unabhängig von Sprache, kulturellen Nuancen und semantischem Inhalt. Die Forschenden verwendeten für das Training Datensätze von Audiodateien aus Kanada und Deutschland, eingesprochen von Schauspielerinnen und Schauspielern. 

Maschine und Mensch gleich schnell

Basierend auf den Trainingsdaten hat das Expertenteam Modelle maschinellen Lernens (ML), die auf jeweils eine von drei Arten arbeiten, untersucht, wie "Pressetext" berichtet. Bei tiefen neuronalen Netzen (DNNs) handelt es sich um komplexe Filter, die Komponenten von Klang wie die Frequenz oder die Tonhöhe analysieren. Das ist zum Beispiel der Fall, wenn eine Stimme lauter ist, weil die sprechende Person wütend ist. Ziel dieser tiefen neuronalen Netze war es, die zugrundeliegenden Emotionen zu identifizieren.

Konvolutionale neuronale Netze (CNNs) wiederum suchen nach Mustern in der bildlichen Darstellung von Tonspuren. Das entspricht in etwa der Erkennung von Gefühlen mittels des Rhythmus und der Beschaffenheit einer Stimme. Das hybride Modell (C-DNN) verbindet beide Verfahren und nutzt sowohl den Ton als auch sein visuelles Spektrogramm zur Vorhersage von Gefühlen. Diese Modelle wurden anschliessend anhand beider Datensätze auf ihre Leistungsfähigkeit getestet.

"Wir haben herausgefunden, dass das erste und das dritte Modell sehr genau die Gefühle bestimmen konnten." Und auch so schnell, wie das sonst nur Menschen gelingt. "Maschinelles Lernen kann verwendet werden, um Gefühle aus Audioclips von nur 1,5 Sekunden zu erkennen", zitiert der "ORF" Diemerling. 

Medizin, Marketing und Militär könnten profitieren

Diese Art von maschinellem Lernen, auch als "Affective Computing" bezeichnet, könne in verschiedensten Bereichen von Medizin über Marketing bis hin zu Sicherheit und Militär eingesetzt werden. Bei der Betreuung pflegebedürftiger Menschen würden mitunter Roboter eingesetzt, ebenso bei der Assistenz im OP-Saal. Reagierten Roboter auf nonverbal oder durch Laute ausgedrückte Bedürfnisse, könne das entlasten. Firmen können sie bei Marktforschung und im Callcenter einsetzen, um Erwartungen der Kundinnen und Kunden präziser zu erfassen. Auch in Therapiesitzungen sehen die Studienautoren und -autorinnen Einsatzmöglichkeiten. Somit bliebe die Hoffnung bestehen, von KI weiterhin eher unterstützt, als vollständig ersetzt zu werden. 
 

Lesen Sie ausserdem: Unlängst zeigte eine Studie der Universität Basel, dass künstliche Intelligenz aufgrund von Gesichtsausdrücken zuverlässig Emotionen erkennen kann. Das getestete KI-System sei auch in der Lage, den Therapieerfolg bei Borderline-Patientinnen und -Patienten zuverlässig vorauszusagen.

Tags
Webcode
TrPSEpun