Digitaler Assistent

Was taugen Siri, Cortana und Google Now?

08.03.2016 von Peter Stelzel-Morawietz

Digitale Assistenten auf dem Handy sind schwer angesagt. Apple, Google und Microsoft buhlen mit Cortana, Google Now und Siri um die Gunst der Nutzer.

"Sag Siri einfach, was es machen soll. Siri versteht, was du sagst, weiß, was du meinst, und spricht sogar mit dir". So, wie Apple für sein smartes "Speech Interpretation and Recognition Interface" wirbt, so bezeichnet Microsoft sein Pendant Cortana als "neue lernfähige persönliche Assistentin". Da kann Google nicht hinten anstehen: "Die richtigen Informationen zur richtigen Zeit. Mit Google Now bleiben Sie über alles auf dem Laufenden, was Sie interessiert", verspricht das Unternehmen.

Der Tenor ist bei allen drei großen IT-Konzernen derselbe: Die persönlichen Assistenten sollen das Leben einfacher machen.

Was steckt hinter den digitalen persönlichen Assistenten?

Aber stimmt das überhaupt? Was leisten Siri, Cortana und Google Now wirklich? Wie funktionieren die digitalen Assistenten und woher bekommen sie die persönlichen Informationen über ihre Nutzer? Drohen eventuell Gefahren durch die Preisgabe dieser Daten, und welche Auswirkungen ergeben sich durch ihre Nutzung? Das sind nur einige der Fragen, denen wir in diesem Überblick nachgehen.

Rückblende: Software für Spracherkennung existiert schon seit den 1990er-Jahren, doch ihre Qualität war enttäuschend. Zwar funktionierte im Prinzip das Diktieren am PC, praxistauglich aber war die Erkennung nicht. In der Folge sind die meisten Programmhersteller wieder vom Markt verschwunden, und bis auf wenige Nischen wie in der Medizin und der Justiz hat sich Diktier-Software nie wirklich durchgesetzt. Eine funktionierende Spracherkennung aber ist essentielle Voraussetzung für digitale Assistenten: Wenn der Assistent nicht versteht, was der Benutzer von ihm möchte, kann er natürlich auch keine ordentliche Antwort geben.

Skype Translator übersetzt Telefonate über das Internet praktisch in Echtzeit in andere Sprachen.
Foto: Skype

In der Zwischenzeit aber haben sich Voraussetzung und Funktionsweise völlig geändert. Arbeitete die Sprach-Software früher auf einem einzelnen PC, läuft sie heute in der Cloud. Einzige Voraussetzung ist also eine ausreichend schnelle Verbindung, die Rechenpower für die Sprachanalyse selbst ist dann praktisch unbegrenzt. Wie leistungsfähig solche ins Internet ausgelagerten Anwendungen bereits sind, illustriert Skype. Der Dienst ermöglicht Telefongespräche mit Übersetzung praktisch in Echtzeit. Aktuell unterstützt er Englisch, Spanisch, Französisch, Deutsch, Italienisch und Mandarin, weitere Sprachen sollen folgen. Der Schreib-/Chat-Modus verarbeitet sogar über 50 Sprachen, ebenso der Online-Übersetzer von Google.

Big Data und fast unbegrenzte Rechenpower in der Cloud

Auf künstliche Intelligenz setzt Google auch bei der Datenanalyse von Google Inbox und Google Photos. Das Mailprogramm gruppiert eingehende Nachrichten automatisch und hebt wichtige Infos hervor, ohne dass man eine Mail erst öffnen muss. Zudem werden die Termin-und Aufgabenverwaltung automatisiert.

Was die Inbox für Mails ist, ist Google Photos für Bilder und Videos. Die Android-und Web-App durchsucht die eigenen Aufnahmen nach Stichwörtern, ohne dass man zuvor Stichworte vergeben muss. Google erkennt also die Inhalte der Bilder automatisch und ordnet ihnen dann Tags zu. Das funktioniert auch für Personen und Gesichter.

Über die Performance aus der Cloud hinaus benötigen die digitalen Helfer weitere Informationen, wenn sie wirklich persönliche Hilfen darstellen sollen. Sonst kann der Nutzer zwar sein Smartphone mit Navigiere mich zum Ort X anweisen, doch inzwischen leisten Google Now und Co. längst mehr: Beispielsweise erinnern sie in Abhängigkeit der Verkehrslage daran, rechtzeitig zum Termin am Ort X aufzubrechen. Damit der Assistent dies eigenständig erkennt, muss er aber Einblick in den Kalender des Nutzers haben und dem eingetragenen Termin einen Ort zuordnen können. Zusammen mit den Verkehrsinfos in Echtzeit wissen Apple und Google dann, wann man tatsächlich aufbrechen muss.

Dieses Beispiel verdeutlicht, dass die digitalen Helfer sowohl auf allgemeine als auch auf persönliche Daten zugreifen müssen. Dazu zählen unter anderem E-Mails, Termine, Kontakte und Adressen, den Such-und Browserverlauf, den Aufenthaltsort und Ähnliches. Im neuen Android 6 geht Google sogar noch einen Schritt weiter: "Now on Tap" heißt die Erweiterung auf alle Apps, die den Inhalt der aktiven Applikation oder Webseite analysiert. Egal, ob man gerade Musik abspielt, das Kinoprogramm liest oder sich per Chat mit Freunden unterhält, Google ermöglicht jeweils kontextspezifische Informationen. Tippt man den Home-Button kurz an und hält ihn anschließend gedrückt, zeigt das Mobilgerät die passenden Einzelheiten. Auch kann man unspezifisch Wann hat das Restaurant geöffnet? fragen, wenn zuvor von einem bestimmten Lokal die Rede war.

Bei den proaktiven Funktionen hinkte Siri bisher hinter Google her, doch mit iOS 9 hat Apple nun aufgeholt. Der neue "Proactive Assistent" koordiniert App-Inhalte, Termine und Orte. So versucht Apple bei einem ankommenden Anruf ohne sichtbare Rufnummer anhand der letzten Chats und Mails den möglichen Anrufer mit einer Einblendung wie "Vielleicht: Hermann Maier" zu identifizieren. Und "Siri Suggestions" schlägt in der neuen Spotlight-Suche Informationen, Apps oder Kontakte vor, die zu Aufenthaltsort, Uhrzeit oder den persönlichen Vorlieben passen könnten. Insgesamt hat Siri gegenüber iOS 8 deutlich zugelegt und arbeitet jetzt viel stärker personalisiert.

Persönliche Ansprache an Cortana, Google Now und Siri

Musste man früher zum Diktieren zahlreiche Anweisungen an das Spracherkennungsprogramm auswendig lernen, lassen sich die aktuellen Assistenten auf natürliche Art und Weise wie eine Person ansprechen: Wie komme ich am schnellsten zum Münchner Hauptbahnhof? Brauche ich morgen einen Regenschirm? Wo ist die nächste Pizzeria? Oder: Wieviel schwedische Kronen sind 100 Euro? Solche Fragen an das Smartphone sind draußen im hellen Sonnenlicht oder im Auto beziehungsweise auf dem Fahrrad natürlich sehr viel schneller ausgesprochen als eingetippt.

Soweit das Prinzip. Die Spracherkennung funktioniert meist ausgesprochen gut. Die gesprochenen Antworten sind letztlich nur die Weiterentwicklung der Tatsache, dass sich Google bei der gewöhnlichen Websuche ohnehin schon bei rund 20 Prozent aller Anfragen festlegt und das Ergebnis selbst präsentiert. Trefferlisten stören da mehr. Das Gleiche versuchen die digitalen Helfer, indem sie Fragen mit einer Sprachantwort erwidern.

Ein paar Einstellungen sind in Google Now erforderlich, damit der Assistent richtig funktioniert (links). Im Gegensatz zu Siri arbeitet Googles Spracherkennung auch offline (rechts).

Doch häufig erscheint eben auch nur eine Trefferliste, der Wikipedia-Eintrag, eine Karte oder Ähnliches. Für Detailinfos muss man dann weiter auf den Touchscreen drücken, doch selbst hier ist man mit Assistent schneller am Ziel als ohne. Mitunter fallen die Antworten etwas kurios aus – man kann es auch unsinnig nennen. So antwortete Siri auf die richtig erkannte Frage Wann fährt der nächste Zug von München nach Augsburg? mit "Ich weiß nicht genau, wie es mit der Mannschaft ‚FC Bayern München‘ aussieht."

Bei Siri passte die FC-Bayern-Antwort nicht zur Frage nach einer Zugabfahrt (links). Praktisch dagegen ist die Aktivierung mit Hey Siri (rechts).

Über Suchanfragen hinaus helfen Cortana, Google Now und Siri bei der Bedienung des Smartphones, zum Beispiel mit Befehlen wie Öffne PC Welt.de, Starte die App GMX Mail, Rufe Heike an, Schalte in den Flugmodus oder Schreibe eine SMS an Alberto. Dazu gehören auch so alltägliche Dinge wie das Stellen des Weckers, das Anlegen eines Termins, einer Notiz: Erinnere mich übermorgen daran, die Wäsche abzuholen. Als praktisch erweist sich die natürliche Spracheingabe zudem bei der Zieleingabe in der Navi-App.

Digitale Assistenten und Datenschutz

Dieser Grundig-Fernseher lässt sich wie viele andere aktuelle TV-Geräte per Sprache steuern. Was mit den dabei anfallenden Daten passiert, bleibt meist im Dunklen.
Foto: Grundig

Selbstverständlich fallen bei jeder Internetsuche Daten an, praktisch jede Webseite setzt Cookies, und selbst ohne lassen sich fast alle Online-Nutzer über individuelle Fingerprints ihrer Browser identifizieren. Und doch stellen die digitalen Sprachassistenten eine neue Stufe hinsichtlich des Sammelns von Daten dar – sogar in zweifacher Hinsicht.

Zum einen horchen die Geräte permanent in den Raum, schließlich schalten sie ja erst nach Befehlen wie Hey …, Okay … oder Alexa ihre Hauptfunktion ein. Anders als bei der benutzerinitiierten Websuche oder App-und Programmbedienung lauschen die Assistenten zumindest potenziell immer. Bei der Mikrofon-Lautsprecher-Kombination Echo stellt dies geradezu die Kernfunktion dar: "Amazon Echo is always on …" – so wirbt der US-Handelsriese. Was mit all den durch die Assistenten aufgezeichneten Daten letztlich passiert, entzieht sich der Kenntnis der Nutzer.

Zum anderen verrät die menschliche Stimme noch viel mehr, als manchem lieb sein dürfte: Wer leicht hustet, bekommt zukünftig nebenbei gleich die passenden Medikamente angeboten. Und diejenigen mit chronischem Husten müssen vielleicht bald mehr für ihre Krankenversicherung bezahlen.

Noch etwas zum Schluss: Wussten Sie, dass sich bereits mehrere hundert Fernsehermodelle per Sprache steuern lassen? Schauen Sie doch mal, ob Ihr TV-Gerät dabei ist und Ihr Wohnzimmer "abhört" ...

Fazit: Kein "besser als", doch Cortana erfordert mehr Eingriffe

Insgesamt funktionieren solche Aktionsbefehle gut, die Mobilgeräte reagieren fast immer mit sinnvollen Dialogen, Bestätigungen, Rückfragen oder Hinweisen (etwa: "Ich habe Alberto nicht in Deinen Kontakten gefunden") und starten gegebenenfalls die passende App. Weniger zufriedenstellend stellt sich dagegen die Bedienung der Musik-Apps dar: Das Abspielen eines bestimmten Songs oder Interpreten mag noch funktionieren, bei Standardaktionen wie "lauter" oder "leiser" scheitern die Systeme aber bereits.

Cortana, Google Now und Siri nach Punkten zu vergleichen macht allein schon deshalb wenig Sinn, weil die Helfer zum Teil an eine Plattform gebunden sind. Abseits des Desktops lässt sich nur der Assistent von Google unter Android und iOS nutzen. Wer ein Mobilgerät mit Windows Phone oder Android besitzt, ist auf Cortana respektive Google festgelegt. Nur mit dem iPhone oder iPad lässt sich komfortabel zwischen den Helfern von Apple und Google wechseln. Allein die Stärke oder Schwäche eines der Assistenten stellt aber keinen Grund für einen Systemwechsel dar. Die Grenzen werden auch durchlässiger, da Cortana als Betaversion nun auch unter Android verfügbar ist.

Ansonsten hat jedes System seine Stärken und Schwächen. Insgesamt muss da der Microsoft-Assistent derzeit etwas häufiger passen als die Helfer von Apple und Google, und so fällt Cortana derzeit in der deutschen Fassungen gegenüber Google Now und Siri zurück. Störend ist hier ferner, dass man Cortana mit einem auf Deutsch eingestelltem Windows Phone nicht einfach durch Umstellen der Spracherkennung auf Englisch nutzen und damit die Funktionsfülle erweitern kann. Schließlich kann die Internetsuche über Bing nicht mit der von Google mithalten.

Unter praktischen Gesichtspunkten fehlt zudem die Möglichkeit, den Assistenten auf dem Smartphone per Sprache wie mit Okay Google oder Hey Siri zu starten. Derzeit bleibt dem Anwender nur die Möglichkeit, Cortana per Fingertipp auf die App zu starten. "Hey Cortana" funktioniert bisher nur in Windows 10 für den Desktop. Andererseits horcht Microsoft somit auch nicht ständig in den Raum hinein, wie Apple und Google dies zwangsläufig tun müssen. Wer weiß schon wirklich, welche Umgebungsgeräusche die Firmen auswerten oder gar aufzeichnen!

Den Sprachbefehl zum Starten des Cortana-Assistenten gibt es bisher nur unter Windows 10 (links), nicht dagegen auf Smartphones mit Windows Phone 8.1.

Die Nase vorn hatte Google bisher bei der App-übergreifenden Analyse: Google Now ließ sich bereits längere Zeit gut als Helfer im Alltag einsetzen. Als Beispiel seien nochmals die Koordination von Terminen mit Ortsangaben, aktuellem Aufenthaltsort und der Verkehrslage in Echtzeit genannt. Mit "Tap on Now" weitet der Suchmaschinenkonzern sein Kontextkonzept unter Android 6 sogar aus, allerdings verfügt der "Proactive Assistant" in iOS 9 nun über ähnliche Funktionen. Bei der natürlichen Sprachsuche gilt im Übrigen auf allen Systemen: Kann der Assistent mit der Frage nichts anfangen, hilft oft schon eine nur leicht modifizierte Form.

Ausblick: Home Automation, Online-Shopping und mehr

Noch gelten digitale Assistenten und Sprachsteuerung vielfach mehr als "nette Spielerei" denn als nützliche Funktion. Wer aber einmal die "natürliche Abneigungsschwelle" überwunden hat, weiß die Spracherkennung und -steuerung zu schätzen. In der Praxis funktioniert sie ziemlich zuverlässig und insbesondere im Auto lassen sich damit Dinge erledigen, die man ohne Siri und Co. während der Fahrt einfach überhaupt nicht machen könnte. Experten prognostizieren deshalb, dass schon in wenigen Jahren ein beträchtlicher Teil der Fahrzeugfunktionen durch Sprach-und Gestensteuerung bedient wird.

Auch in anderen Bereichen wie dem intelligenten Zuhause ist Sprachsteuerung auf dem Vormarsch, zum Beispiel die aufs Wort gehorchenden Nest-Thermostate. Ein weiteres Einsatzgebiet hat Amazon im vergangenen Jahr mit der Assistenten-Hardware Echo fürs Wohnzimmer eröffnet – vorallerst allerdings nur in den USA. Echo hört auf den Zuruf Alexa und agiert als stationärer Helfer daheim, der prinzipiell alle Fragen beantworten und selbstverständlich Bestellungen bei Amazon aufnehmen kann. Zusammen mit Cortana im neuen Desktop-Betriebssystem von Microsoft und Google Now im Chrome-Browser für den PC verdeutlicht Echo, dass sich digitale Assistenten künftig keineswegs auf Mobilgeräte beschränken.

Mit Echo dringt Amazon ins Wohnzimmer und damit in den stationären Einsatz der digitalen Assistenten vor.

Mit dem zunehmenden Einsatz geht die Frage nach der Hoheit über die Daten einher. So wie sich aktuell die Autokonzerne Gedanken machen müssen, wie weit sie die beim Fahren anfallenden Daten an IT-Konzerne wie Apple oder Google abgeben, werden Cortana und Co. die digitale Welt insgesamt weitreichend verändern – nicht zuletzt das traditionelle Geschäftsmodell von Google selbst. Denn wenn Siri gleich eine zufriedenstellende Antwort gibt, braucht man keine Suchtreffer – und sieht damit auch keine herkömmliche Online-Werbung mehr. Selbst Apps sind in Gefahr, sobald die Assistenten mehr und mehr deren Aufgaben übernehmen.

Ach ja, ein großer Internet-und IT-Konzern mit mehr als einer Milliarde Nutzern wurde noch gar nicht erwähnt: Facebook. Offiziell ist noch nichts bestätigt, doch es verdichten sich die Hinweise, dass auch das soziale Netzwerk an einem persönlichen Assistenten ("Moneypenny") arbeitet.


Die wichtigsten Funktionen im Überblick: Cortana, Google Now und Siri
	Cortana	Google Now	Siri
System-/Hardware-voraussetzungen	ab Windows Phone 8.1, Windows 10 (Android: Beta-Version)	ab Android 4.1, iOS, Chrome Browser	ab iPhone 4s, ab iPad 3, iPad Mini, Apple Watch
Unterstützte Sprachen	Deutsch, Englisch u.a.	Deutsch, Englisch u.a.	Deutsch, Englisch u.a.
Assistent starten	Such-oder Mikrofon-Button, per Zuruf Hey Cortana nur in Windows 10	Per Zuruf OK Google, Mikrofon-Button	Per Zuruf Hey Siri, Home-Button
Apps starten	ja	ja	ja
Semantisches,kontextbezogenesVerständnis	ja	ja	teilweise
Proaktive Funktionen	teilweise	ja	ja (seit iOS 9)
lokale Offline-Spracherkennung	ja	ja	nein
Weitere Infos und Befehle	Bei Microsoft	url link https://support.google.com/websearch/answer/2940021?hl=de Bei Google _blank	url link http://www.apple.com/de/ios/feature-availability/#siri Bei Apple _blank

"Wow, aber ..." - Kommentar vom Autor

Peter Stelzel-Morawietz - Redakteur bei PC-WELT.de

Chapeau! Was die digitalen Assistenten leisten, ist wirklich erstaunlich. Da gibt es erstens nichts wegzudiskutieren und zweitens zahlreiche nützliche Anwendungsszenarien, zum Beispiel im Auto. Dennoch behalte ich meine Grundskepsis gegenüber Cortana, Google Now und Siri bei.

Meistens brauche ich sie schlicht nicht, und damit das auch so bleibt, verzichte ich im Alltag auf die digitalen Helfer. So habe ich meine Termine (überwiegend) im Kopf und schaue aus Gründen der Übersicht mitunter sogar auf eine Landkarte – obwohl ich weiß, dass mich das Navi sicher und schnell zum Ziel bringt. Man muss nicht gleich vor digitaler Demenz oder Amnesie warnen, doch der ständige Gebrauch der digitalen Helfer schafft eben doch Abhängigkeit. (PC-Welt)