Multimodale Interaktion

Wie Maschinen lernen, Blicke und Fingerzeige zu deuten

17.04.2018


Nils Lenke leitet ein Team, das sich auf disruptive Innovationen in der Automobilindustrie konzentriert, insbesondere an der Multimodalität des HMI im Auto, der Fahrer- und Fahrzeuginnenraum­überwachung und der Gewinnung von Antworten aus unstrukturierten Daten. Er hat einen Doktortitel in Computerlinguistik, zwei Masterabschlüsse, ein Diplom und 13 Patente. Lenke vertritt Cerence auch im Aufsichtsrat des DFKI, Deutschlands führendem Forschungsinstitut für Künstliche Intelligenz.
Maschinen erlernen zunehmend, Blicke und Gesten zu deuten – durch eine Kombination von Bilderkennung und Deep-Learning-Technologien. Smarte, multimodale Assistenten werden zum Beispiel die Zukunft des autonomen Fahrens nachhaltig beeinflussen.

Unser Wissen über die Biologie wächst und wir erkennen, dass unsere menschlichen Fähigkeiten nicht so einzigartig sind, wie über Jahrhunderte angenommen wurde. Lange bevor Computer Schach und Go spielen konnten, beherrschten Vögel den Zahlenraum von eins bis zwölf. Und Delfine in Shark Bay, Australien, nutzen Schwämme als Jagdwerkzeug. Eines der wenigen Dinge, die wir anderen Lebewesen und selbst den Menschenaffen voraushaben, ist das Zeigen auf Personen oder Gegenstände.

Obwohl es uns so simpel und natürlich erscheint, kommuniziert kein anderes Lebewesen so intensiv über Blicke und Gesten wie der Mensch. Wie sollen Maschinen das erlernen können?

Die Typologie des Zeigens

Der Linguist und Psychologe Karl Bühler unterschied 1934 drei Arten des Zeigens, die in enger Verbindung mit der Sprache stehen.

  • Typ 1 ist das "ad oculos"-Zeigen. Es findet im "hier" statt, im Gesichtsfeld des Sprechers und ist für den Zuhörer ebenfalls zugänglich. Prinzipiell braucht es dafür nur einen Finger, doch ergänzt die Sprache den Vorgang mit speziellen Zeigewörtern wie "hier" und "dort", "dies" und "das", oder "links" und "rechts" sowie "vor" und "hinter".

  • Das Zeigen Typ 2 findet in der Welt der Erinnerung oder Vorstellung statt, die ihren Ursprung in der Sprache hat. Ein Beispiel:"Wenn Sie aus dem Metropolitan Museum herauskommen, liegt der Central Park hinter Ihnen und das Guggenheim Museum links. Vor diesem treffen wir uns."

  • Typ 3 ist rein sprachlich. Das gesprochene Wort ist in die Zeit eingebettet. Der Sprecher muss daher oft auf früher gesagtes zurückverweisen, oder einen Bezug zu etwas herstellen, das erst später zur Sprache kommen wird. Diese Art des Zeigens erfolgt auch über , also zurückverweisend, gebrauchte Zeigewörter: "Wie ist das Wetter in Tokio?" - "Schön und sonnig." -"Gibt es gute Hotels dort?".

Smarte Assistenten beherrschen heute bereits die erste Art des Zeigens auf Elemente in der sichtbaren Umgebung. Besonders intelligente Assistenten werden künftig auch den dritten – sehr abstrakten – Typ des Zeigens entschlüsseln können.

Smart kommunizieren mit modernen Fahrer-Assistenten

Den ersten Typ des Zeigens auf Elemente der sichtbaren Umgebung haben smarte Assistenten bereits verinnerlicht. So ist es mit einem entsprechenden System schon heute möglich, beispielsweise bei der Fahrt über den Münchner Königsplatz auf die Glyptothek zu blicken und Antworten auf Fragen wie "Was ist das?", "Ist dort gerade offen?" oder "Gibt es hier laufende Sonderausstellungen?" zu bekommen.

Per Bilderkennung und Deep Learning beherrschen auch Maschinen die Blickerkennung und nutzen sie in Kombination mit gesprochener und geschriebener Sprache.
Per Bilderkennung und Deep Learning beherrschen auch Maschinen die Blickerkennung und nutzen sie in Kombination mit gesprochener und geschriebener Sprache.
Foto: Vladyslav Starozhylov - shutterstock.com

Der smarte Assistent imitiert dabei menschliches Verhalten: Eine Kamera beobachtet die Augen des Fahrers und erkennt die Richtung seines Blicks. Dabei nutzt das Gerät die besondere Gestalt des menschlichen Auges: dunkle Iris auf einer kontrastreichen weißen Umgebung. Biologen gehen davon aus, dass diese auffällige Form kein Zufall ist, sondern ein Produkt der Evolution zur Vereinfachung der Blickerkennung.

Auch Künstler spielen seit Jahrhunderten mit der Blickrichtung der Figuren auf ihren Gemälden. Mit wenigen Pinselstrichen vermögen sie, die Augen ihrer Protagonisten so zu gestalten, dass diese die Blicke des Betrachters über das Bild lenken und ihm helfen, es zu interpretieren.

Zusammenspiel von Sprache, Schrift und Gestik

Per Bilderkennung und Deep Learning beherrschen auch Maschinen die Blickerkennung und kombinieren sie mit gesprochener und geschriebener Sprache. Zusammen mit dem Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) arbeitet Nuance an diesen Fähigkeiten, um echte multimodale Assistenten zu entwickeln.

Multimodale Interaktion mit smarten Assistenten steht für das Zusammenspiel von Sprache, Schrift und Gestik.
Multimodale Interaktion mit smarten Assistenten steht für das Zusammenspiel von Sprache, Schrift und Gestik.
Foto: carlos castilla - shutterstock.com

"Multimodal" bedeutet dabei nicht nur, dass der Anwender die Wahl zwischen unterschiedlichen Nutzungsarten hat – tippen ODER sprechen ODER mit der Hand auf ein Pad schreiben, um das Ziel ins Navigationssystem einzugeben. Der Begriff steht für die Zusammenarbeit unterschiedlicher Bereiche, um eine Aufgabe zu erfüllen. Zeigt beispielsweise jemand auf ein Ding in seiner Umgebung (Zeigen vom Typ 1) und sagt dabei "erzähl mir mehr darüber" (Zeigen vom Typ 2), sind beide Modalitäten nötig, um das Ziel des Sprechers zu verstehen.

Der Schlüssel zum vollständig autonomen Fahren?

Solche Funktionen begeistern schon heute. Mit selbstfahrenden Autos wird ihre Attraktivität jedoch noch deutlich zunehmen. Wenn ein Auto tatsächlich autonom fährt, fragen sich viele, welche Rolle der Fahrer dann noch spielt. Die Antwort liegt nahe, wie eine Befragung deutscher Autofahrer 2016 verdeutlicht. Auf die Frage nach den Vorteilen von selbstfahrenden Autos wählten die meisten Teilnehmer "Ich kann die Landschaft genießen."

Vor diesem Hintergrund lässt eine multimodale Interaktion in einem autonomen Auto keine Fahrerwünsche offen. Blick- und Gestenerkennung, kombiniert mit einem "nur reden"-Modus für die Spracherkennung wird es ermöglichen, dass die Frage "Wie heißt diese Kirche?" beantwortet wird, ohne dass dafür ein Knopf gedrückt oder ein Kennwort genannt werden müsste. Und schon heute machen echte multimodale Systeme Maschinen wieder etwas menschlicher.

Lesetipp: Autonome Auto-Trends auf der CES 2018

Zur Startseite