Projekt ASARob

Sensible Roboter sollen erkennen, was der Mensch will

19.04.2018 von Dr. Robert und Patrick Philipp

Damit Roboter Menschen im Haushalt oder in der Pflege unterstützen können, müssen sie grundlegende Fähigkeiten der Interaktion erlernen. Robotern beizubringen, wie sie zwischenmenschlich sensibel agieren, ist Aufgabe des Projekts ASARob.

Care-O-bot 4 wurde speziell für die Interaktion mit und Unterstützung von Menschen in Alltagsumgebungen entwickelt.
Foto: Fraunhofer IPA / Rainer Bez

Stellen Sie sich vor, Sie warten im Foyer eines Gebäudes und ein anderer Mensch in einigen Metern Entfernung schaut in Ihre Richtung. Normalerweise ist Ihnen sofort klar, ob die Person Sie bewusst anschaut und Kontakt sucht oder der Blick nur beiläufig in Ihre Richtung fällt. Entsprechend unterschiedlich werden Sie sich verhalten.

Doch was der Mensch intuitiv und mit Leichtigkeit bewältigt, kann für Roboter eine schwierige Angelegenheit sein. Menschen nehmen vielfältige Signale wie Gesichtsausdruck, Körperhaltung und Blickrichtung unterbewusst wahr und reagieren darauf. Das ebnet oftmals den Weg für eine reibungslose, effiziente Kommunikation. Robotern fehlt jedoch eine vergleichbare Sensibilität.

Das zu ändern, ist unser Ziel in dem auf drei Jahre angelegten Projekt "Aufmerksamkeits-Sensitiver Assistenzroboter“ (ASARob), das im August 2017 startete und vom Bundesministerium für Bildung und Forschung (BMBF) mit rund zwei Millionen Euro gefördert wird. Daran beteiligt sind neben dem Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung IOSB auch das Fraunhofer-Institut für Produktionstechnik und Automatisierung IPA, das Fraunhofer-Zentrum für Internationales Management und Wissensökonomie IMW, Unity Robotics, das Cognitive Systems Lab der Universität Bremen sowie die Semvox GmbH.

Die Motivation dafür sind zukünftige Anwendungsszenarien: Damit Roboter Menschen im Haushalt oder in der Pflege unterstützen können, müssen sie grundlegende Fähigkeiten der Interaktion erlernen. Damit ein Roboter sich erwartungskonform, also zwischenmenschlich kompatibel verhalten kann, muss er beispielsweise registrieren, worauf sein menschliches Gegenüber gerade die Aufmerksamkeit richtet und welche Absichten der Mensch verfolgt.

Wenn es gelingt, dass Roboter und Mensch ihre Aufmerksamkeit auf dasselbe Objekt richten und sich dessen auch bewusst sind, spricht man von Joint Attention. Diese Fähigkeit hilft Robotern, Menschen besser zur Seite zu stehen und konkreter auf ihre Wüsche eingehen zu können – denn schon das simple Übergeben eines Gegenstands würde ohne Joint Attention schwierig.

Dafür muss der Roboter aber neben Sprache nicht nur Blickrichtungen, Kopfdrehung und Gesten erkennen und deuten, sondern auch aktiv in der Lage sein, die Aufmerksamkeit seines Gegenübers mit Hilfe seiner eigenen Körperhaltung und Blickrichtung zu lenken. Und er muss im weiteren Verlauf den Menschen beobachten, um sicherzustellen, dass dessen Aufmerksamkeit ausgerichtet bleibt.

Mit Active Computing Empathie simulieren

Joint Attention ist ein Teilbereich des Affective Computing. Der Begriff steht für die Fähigkeit technischer Systeme, Emotionen des Menschen zu erkennen, angemessen darauf zu reagieren und dadurch die Emotionen des Menschen wiederum (positiv) zu beeinflussen. Kurz: Der Computer soll Empathie simulieren und so die Grundlage für eine gute Mensch-Computer-Beziehung schaffen.

Auf technischer Ebene heißt das: Aus zahlreichen Informationen von Sensoren, die das Gesicht, die Stimme und die Körperhaltung der Person beobachten, leiten Algorithmen – beispielsweise auf Basis maschineller Lernverfahren – die momentane Stimmungslage der Person ab. Darauf soll der Computer eine gefühlvolle und intelligente Antwort geben.

Der Ansatz des Affective Computing wurde erstmals 1995 von Rosalind Picard, einer amerikanischen Elektroingenieurin, beschrieben. Ausgehend von der Erkenntnis, dass Emotionen in der menschlichen Kognition eine wichtige Rolle spielen, postulierte Picard: Damit Computer Menschen effektiv unterstützen können, müssen sie auch in der Lage sein, menschliche Emotionen zu verstehen.

In die gleiche Richtung weist die „Media Equation“. Diese auf Byron Reeves und Clifford Nass zurückgehende Kommunikationstheorie besagt, dass Menschen Computer automatisch und zumeist unbewusst wie eine andere Person behandeln. Menschen sind zum Beispiel höflich gegenüber Computern. Um den damit einhergehenden Erwartungen gerecht zu werden, ist Affective Computing ein entscheidender Ansatz: Er vermeidet negative Emotionen, erhöht die Akzeptanz und erleichtert die Kommunikation.

Das ist genau die Richtung, die mit ASARob verfolgt werden soll. Dabei geht es uns nicht darum, neue Hardware zu entwickeln. Stattdessen wollen die Expertinnen und Experten die Steuerungssoftware mobiler Roboter dahingehend erweitern, dass diese den Aufmerksamkeitszustand des jeweiligen Gegenübers erfassen und bei Bedarf durch entsprechende Aktionen beeinflussen können.

Dafür müssen wir zunächst den Menschen studieren: „Wir beobachten, wie sich Menschen in bestimmten Situationen verhalten, um die kognitiven Grundlagen zu verstehen, auf deren Basis der Mensch Aufmerksamkeit erkennt und nutzt“, sagt Dr. Michael Voit, Leiter der Gruppe Perceptional User Interfaces am Fraunhofer IOSB. „Mit Hilfe dieser Erkenntnisse wollen wir dann ein mathematisches Modell und die entsprechenden Algorithmen entwickeln, welche diese Art der Interaktion nachbilden.“

Damit der Roboter die Aufmerksamkeit von Menschen erkennen kann, verwenden die Fraunhofer-Forscher multimodale Verfahren, nutzen also verschiedene Wahrnehmungskanäle, die sich ergänzen, aber bewusst auch bestimmte Redundanzen beinhalten. Dadurch wird gewährleistet, dass die Aufmerksamkeit von Personen auch in unstrukturierten Umgebungen, wie sie im Alltag zu erwarten sind, robust und fehlertolerant nachvollzogen werden kann: Wenn ein Kanal einmal ausfallen sollte, etwa, weil der Roboter hinter dem Menschen steht und dessen Augen nicht sehen kann, sind Rückfalloptionen nötig.

Intuitive Erwartungen der Nutzer erfüllen

Für den aktiven Teil – Aufmerksamkeit lenken und den Dialog aufrechterhalten – kommen Sprache und Bewegungen des Roboters zum Einsatz. So kann sich der Roboter nach vorn beugen, zum Nutzer hindrehen oder diesen ansprechen. Die Herausforderung liegt hier darin, diese Ausdrucksmittel so einzusetzen und Dialoge so zu gestalten, dass es den intuitiven Erwartungen der menschlichen Nutzer entspricht.

Wie genau solche „erwartungskonformen Roboter-Reaktionen“ aussehen sollten, untersucht das Fraunhofer IMW anhand bereits existierender und neuer Nutzeranalysen. Als Hardware-Basis für eine exemplarische Umsetzung dient der vom Stuttgarter Fraunhofer IPA und der Unity Robotics GmbH entwickelte Care-O-bot 4.

Dieser mobile Roboter wurde speziell für die Interaktion mit und Unterstützung von Menschen in Alltagsumgebungen entwickelt. Zudem ist er modular aufgebaut, beispielsweise kann er mit oder ohne Arme eingesetzt werden. Dadurch lässt er sich einfach an unterschiedliche Aufgaben anpassen. Und er beherrscht bereits einfache Assistenzfunktionen: Er kann Gegenstände holen und bringen oder auch Menschen zu vorgegebenen Orten führen.

Mit dem Forschungsprojekt wollen die Wissenschaftlerinnen und Wissenschaftler den Roboter dazu befähigen, Menschen in zwei konkreten Szenarien zu unterstützen. Zum einen soll er im Eingangsbereichs eines Klinikums auf Basis der akustischen und visuellen Merkmale die Aufmerksamkeit einer Person einschätzen. Wirkt diese unsicher oder an einer Interaktion interessiert, soll der Roboter aktiv auf sie zugehen und Unterstützung anbieten. Er kann die Person etwa zur Rezeption weiterleiten oder sie zu ihrem Ziel führen. Unterwegs soll er dann regelmäßig überprüfen, ob die Person ihm noch folgt, ihre Hilfsmittel verwendet und ob sie ihre Aufmerksamkeit noch dem Roboter zuwendet. Am Ziel angekommen, verabschiedet sich der Roboter und bewegt sich zurück zum Eingangsbereich.

Care-O-bot 4 kann mit Armen, aber auch ohne eingesetzt werden und lässt sich so an unterschiedliche Aufgaben anpassen
Foto:

Projekt ASARob umfasst mehr als nur Softwareentwicklung

Im anderen Szenario soll der Roboter in einem Gruppenraum mit Hilfe geeigneter Unterhaltungsmedien zur kognitiven Aktivierung der Patienten beitragen. Dazu soll er auf interessierte Menschen zugehen und ihnen verschiedene Formen der Beschäftigung vorschlagen, zum Beispiel Memory-Spiele. Neben der reinen Softwareentwicklung für den Roboter sind im Projekt ASARob noch einige weitere Aufgaben zu erfüllen.

Die Bedürfnisse potenzieller Anwender und durch das Projektvorhaben aufgeworfene ethische, rechtliche und soziale (sogenannte ELSI-) Aspekte werden vom Leipziger Fraunhofer IMW erforscht. Die Fraunhofer-Ökonomen stellen frühzeitig eine Marktorientierung sicher und nehmen wirtschaftliche Aspekte im Projekt wie die Werttreiber und die Zahlungsbereitschaft zukünftiger Anwender unter die Lupe.

Und um herauszufinden, ob die Einschätzung des Roboters bezüglich der Aufmerksamkeit seines Gegenübers auch den Tatsachen entspricht, werden in Nutzerstudien zusätzlich Biosignale aufzeichnet und ausgewertet. Für diesen Part des Projekts ist das Cognitive Systems Lab CSL der Universität Bremen verantwortlich.

Nach der Aufmerksamkeitsschätzung folgt die Umsetzung in passendes Verhalten. Dazu gehört neben Gesten auch die sprachliche Kommunikation in Form von Dialogen. Diese Fähigkeit wird die Semvox GmbH beisteuern. Das geriatrische Zentrum in Karlsruhe-Rüppurr und das geriatrische Netzwerk Gerinet Leipzig sind als potentielle Nutzer des Roboters am Projekt beteiligt. In deren Einrichtungen wird der Roboter Praxistests in den zwei beschriebenen Szenarien unterzogen und evaluiert. Der Roboter soll am Ende in der Lage sein, intuitiv mit Menschen zu interagieren. Er soll insbesondere auf ältere Menschen zugehen und diese im Alltag unterstützen können.

Wenn es gelingt, die geplante Aufmerksamkeitssensitivität zu realisieren, ist das für weitere Anwendungsbereiche relevant: Naheliegende Transfers finden sich in Szenarien in Hotels, Krankenhäusern oder Kaufhäusern, in denen Kunden oder Besucher ebenfalls von Robotersystemen begrüßt, informiert und begleitet werden könnten.

Das Potenzial von Maschinen, die erkennen können, wie und warum ein Mensch gerade handelt, reicht aber noch viel weiter: In Produktion und Qualitätssicherung könnte diese Fähigkeit ebenso nützlich sein wie in der Fahrzeugsteuerung. Von nicht minderem Interesse ist es, Computer allgemein intuitiver bedienbar zu machen. (PC-Welt)