Nuance: Zehn Jahre Dragon NaturallySpeaking

18.04.2007
Nuance Communications feiert den zehnjährigen Geburtstag von "Dragon NaturallySpeaking", nach eigenen Angaben die meist verkaufte und präziseste Spracherkennungssoftware. Den Namen Dragon gibt es aber schon seit 25 Jahren.
Nuance: Mann mit Dictaphone und Dragon NaturallySpeaking

Im April 1997 kam die Version 1.0 von "Dragon NaturallySpeaking" heraus. Es handelte sich dabei um die erste massenmarkttaugliche PC-Spracherkennungssoftware, die statt einzelner Worte ganze Sätze aufnehmen konnte und damit dem natürlichen Sprachfluss folgte. Für Nuance Communications, bis 2005 unter dem Namen ScanSoft bekannt, ist der Zehnjährige ein Grund zum Feiern.

Doch entwickelt wurde die Software von dem 1982 gegründeten Unternehmen Dragon Systems. Somit kann man sagen, dass der Name Dragon schon 25 Jahre alt ist. Die ersten Vorgängerprodukte nannten sich DragonDictate, beschränkten sich aber auf die Wort-für-Wort-Eingabe und kosteten bis Erscheinen von Dragon NaturallySpeaking noch mehrere tausend Dollar. Heute liegen die Preise je nach Version (Standard, Preferred, Professional, Legal und Medical) zwischen 99 und 1.200 Euro; der Straßenpreis liegt teilweise deutlich darunter.

Im Jahr 2000 fiel Dragon an Lernout&Hauspie, doch ein Jahr später schon ging das belgische Unternehmen nach spektakulären Unregelmäßigkeiten insolvent. Die Konjuwelen wurden versteigert. ScanSoft, ursprünglich Name eines von Xerox übernommenen Produkt und Anbieter der bekannten OCR-Software OmniPage, sicherte sich Dragon und somit den Einstieg in Sprachtechnologien.

Durch Zukäufe wie dem späteren Namensgeber Nuance und Dictaphone (2006) hat sich das Unternehmen immer mehr Sprach-Knowhow angeeignet, weshalb die heutige Version 9 von Dragon NaturallySpeaking laut DACH-Vertriebschef Christof Stuhlmann von den Algorithmen her nichts mehr mit der Version eins gemein hat.

Wo anfangs noch mehrere Stunden Sprachtraining erforderlich waren, habe die Software mit der 9er-Version so weite Fortschritte gemacht, dass sie ganz ohne auskomme und doch bis zu 99 Prozent Erkennungsgenauigkeit biete.

Um sie an mundartliche Unterschiede zu gewöhnen, brauche es heute nur noch eine Anlernphase von fünf bis sieben Minuten. Bis zu 160 Wörter oder im Schnitt 800 Zeichen pro Minute soll das Programm aufnehmen und in Text umwandeln können. So schnell ist keine Sekretärin, und auch eine Quasselstrippe wie Gisela Schlüter oder Dieter Thomas Heck hätte sich dabei wohl die Zunge gebrochen.

Mitten im Hype um Spracherkennung Ende der 1990er Jahre geboren, hat Dragon NaturallySpeaking, auch wenn damals selbst noch in den Kinderschuhen, die meisten Konkurrenzprodukte vom Markt gefegt oder in die Nische gedrängt. Philips zum Beispiel beschränkt sich heute auf den Medizinbereich.

Und da IBM ViaVoice, heute eher als Einstiegslösung, in Lizenz ebenfalls von Nuance vertrieben wird, schätzt Stuhlmann, dass sein Unternehmen gut 90 Prozent des Massenmarktes behauptet. Rund 17 Millionen User sind bei Nuance registriert, wie viele Dragon gekauft haben oder einsetzen, sei aber schwer zu sagen. Der Umstieg von Version 8 auf Version 9 im August 2006 habe aber mindestens 30 Prozent Zuwachs gebracht, denkt Stuhlmann.

Die Version 9 ist für die Sprachen Englisch, Niederländisch (L&H-Erbe), Französisch, Deutsch, Italienisch und Spanisch erhältlich, wobei Englisch ab der Preferred-Version immer dabei ist. Eine weitere Sprache ist Stuhlmann zufolge nicht angedacht, zumal die Entwicklung weit mehr als nur die Eingabe einer Vielzahl von Wörtern, sondern auch von grammatikalischen und Kontextregeln beinhalten würde.

Wann und mit welchen Features eine Version 10 herauskommt, kann der Manager nicht sagen. Aber denkbar ist ihm zufolge alles. Zum Beispiel die Integration der vor einem Jahr herausgebrachten SMS-Diktierfunktion oder die Möglichkeit, eine ganze Gesprächsrunde zum digitalen Diktat zu bitten. Ein VAR-Partner soll es schon geschafft haben, mehrere Personen einzubinden, bis zur Marktreife werde aber noch einige Zeit verstreichen.

Nuance biete VARs, Systemintegratoren und Entwicklern viele Entfaltungsmöglichkeiten. Neben den vertikalen Versionen Legal und Medical seien auch schon Speziallösungen wie sprachgesteuerte Rollstühle für Behinderte bis hin zu einem Bibelvokabular für eine Pfarrei entstanden.

Auf Dragon- und andere Nuance-eigene Technologien bauen auch Spracherkennungslösungen für Call-Center und Navigationsgeräte. Acht Navi-Anbieter, darunter auch Medion, sollen schon Nuance-Produkte einsetzen oder dies planen.

Wo in der Telefonie-Menüführung nur einzelne Wörter oder Zahlen nötig sind, sind die Anforderungen bei der Eingabe ganzer Straßenpläne mit 100.000 oder gar mehr Ortsnamen sehr viel höher. Die stark wachsende Verbreitung von Audio- und Videoaufzeichnungen führt zu einem erheblichen Bedarf an Methoden zur verbesserten Suche, Nutzung und Übermittlung der Inhalte. Mit "Dragon AudioMining" haben Entwickler die Möglichkeit, für jedes in einer Aufzeichnung gesprochene Wort XML-Speech-Index-Daten mit Zeitstempel und Vertraulichkeitsebene zu erstellen.

Sogar das Surfen und Chatten im Internet ist mit NaturallySpeaking möglich. Somit erhält der Gimmick-Charakter, der Spracherkennungssoftware in den früheren Jahren anhaftet, für Privatnutzer tatsächlich einen Sinn, freut sich Stuhlmann. Anders als Antiviren-Software, die der Verbraucher eher als notwendig erachte, habe Spracherkennung schon immer interessiert und dabei auch Spaß gemacht, so der Vertriebsmann. (kh)