Deepfake-Stimmen

Gehirn kann KI-generierte von echter Stimme unterscheiden

19.06.2024
Unser Gehirn reagiert auf eine KI-generierte Stimme anders als auf eine echte - nur wird uns das nicht immer bewusst. Zu diesem Schluss kommen Forschende, die Probanden beim Zuhören ins Hirn geschaut haben.
Fake oder echt?
Foto: ArtemisDiana - shutterstock.com

Ob gerade ein echter Mensch oder eine von KI generierte Stimme spricht, ist für Zuhörer häufig kaum noch zu unterscheiden. Zumindest nicht bewusst: Das Gehirn reagiere auf Deepfake-Stimmen durchaus anders als auf natürliche, berichtet ein Forschungsteam im Fachjournal "Communications Biology". Gefälschte Stimmen scheinen demnach unter anderem zu weniger Vergnügen beim Hören zu führen.

Algorithmen zur Stimmsynthese seien inzwischen so leistungsfähig, dass die Identitätsmerkmale künstlicher Stimmklone denen natürlicher Sprecher sehr nahekommen. Solche mit Deepfake-Technologien imitierten Stimmen würden zum Beispiel für Betrugsversuche am Telefon genutzt oder dafür, Sprachassistenten die Stimme der Lieblingsschauspielerin zu geben.

Das Team um Claudia Roswandowitz von der Universität Zürich analysierte, wie gut die menschliche Identität in Stimmklonen erhalten bleibt. Die Forschenden nahmen im Jahr 2020 die Stimmen vier deutschsprachiger Männer auf, woraufhin mithilfe von Computeralgorithmen jeweils Deepfake-Stimmen dieser Sprecher generiert wurden.

Deepfake-Stimmen schon ziemlich perfekt

Geprüft wurde dann, wie gut die Nachahmung war, also wie überzeugend die Identität geklont wurde. Dafür sollten 25 Probandinnen und Probanden entscheiden, ob die Identität zweier vorgespielter Stimmen identisch war oder nicht. In etwa zwei Drittel der Versuche wurden die Deepfake-Stimmen korrekt dem jeweiligen Sprecher zugeordnet. "Dies verdeutlicht, dass aktuelle Deepfake-Stimmen zwar nicht perfekt die Identität imitieren, aber das Potenzial haben, die Wahrnehmung von Menschen zu täuschen", sagte Roswandowitz.

Mit funktioneller Magnetresonanztomographie (fMRT) untersuchten die Forschenden dann, wie einzelne Gehirnareale auf gefälschte und echte Stimmen reagieren. Demnach gab es in zwei zentralen Arealen Unterschiede: im sogenannten Nucleus Accumbens und dem auditorischen Cortex. Es liege dem Team zufolge nahe, dass beide Bereiche eine wichtige Rolle dabei spielen, ob ein Mensch eine Deepfake-Stimme als Fälschung erkennt oder nicht.

"Der Nucleus Accumbens ist ein wichtiger Bestandteil des Belohnungssystems im Gehirn", erklärte Roswandowitz. Er sei weniger aktiv gewesen, wenn eine Deepfake- und eine natürliche Stimme verglichen wurden, als bei zwei echten Stimmen. Einer gefälschten Stimme zu lauschen, aktiviere das Belohnungssystem weniger.

Das Gehirn versucht auszubessern

Einen Aktivitätsunterschied gab es der Analyse zufolge auch im auditorischen Cortex, der zuständig für die Analyse von Geräuschen ist. Der Bereich war mehr involviert, wenn es darum ging, die Identität von Deepfake-Stimmen zu erkennen. "Wir vermuten, dass dieses Areal auf die noch nicht perfekte akustische Imitation der Deepfake-Stimmen reagiert und versucht, das fehlende akustische Signal auszugleichen", sagte Roswandowitz.

Der Cortex kompensierte dabei wohl weitgehend heimlich vor sich hin. "Irgendwas signalisiert dem Bewusstsein dann schon, dass etwas anders und schwieriger ist, aber das bleibt häufig unter der Wahrnehmungsschwelle."

Mit der rasanten Entwicklung von Technologien der Künstlichen Intelligenz habe die Erstellung und Verbreitung von Deepfakes massiv zugenommen, heißt es von den Forschenden in der Studie. Würden also heutige, vier Jahre später erstellte Deepfakes, die Zuhörer komplett austricksen? Oder wären die Ergebnisse ähnlich? "Das ist eine sehr spannende Frage", meint Roswandowitz. Neuere KI-generierte Stimmen hätten wahrscheinlich eine etwas bessere Klangqualität.

Roswandowitz geht davon aus, dass die Aktivitätsunterschiede im auditorischen Cortex geringer wären also zu der Zeit, als die Studie durchgeführt wurde. Denn diese Region reagiere auf die unterschiedliche Klangqualität. Im Nucleus Accumbens hingegen erwartet sie möglicherweise ähnliche Ergebnisse. "Es wäre sehr interessant, dies experimentell zu untersuchen." (dpa/rs)