12.09.2006 · Wort und Text kommen sich auf dem Computer so nahe wie nie zuvor. Die neue Version 9 der Spracherkennung von Dragon Naturally Speaking erkennt einen gesprochenen Text fast fehlerfrei. Die Zeiten des lästigen Tippens sind vorbei.
Von Michael SpehrWas kann man über eine Spracherkennung Besseres sagen als: Sie funktioniert. Sich am Schreibtisch zurücklehnen, Briefe, E-Mails und Berichte ins Mikrofon diktieren, und schon erscheint der Text fehlerfrei auf dem Bildschirm. Für viele ist diese Vorstellung ein Traum. Wer im Diktieren geübt ist, schafft 150 Worte in der Minute, am Computer muß man dafür schon verflixt schnell im Zehnfingersystem tippen können. Nun ist das alles Wirklichkeit.
Wer in den vergangenen Jahren die Entwicklung der Spracherkennung verfolgt hat, erlebte schöne Beispiele des Fortschritts. Anfangs nur auf teuren Großrechnern überhaupt einsatzfähig, dann im PC-Bereich bestenfalls für simple Kommandos geeignet, wird Spracherkennung heute zur selbstverständlichen Alltagstechnik. Wer immer wiederkehrende Floskeln und einen begrenzten fachwissenschaftlichen Wortschatz verwendet, kann mit einem Spracherkennungssystem für den Windows-PC glücklich werden. Leider gibt es in diesem Bereich nur noch einen Hersteller: Nuance entwickelt sein Dragon Naturally Speaking beharrlich weiter, während sich Philips und IBM aus dem Massenmarkt zurückgezogen haben.
Nahezu fehlerfreie Erkennung
Die neue Version 9 von Naturally Speaking ist ein großer Schritt nach vorn. Sie bietet unter bestimmten Bedingungen eine nahezu fehlerfreie Erkennung der menschlichen Sprache. Der Hersteller verspricht eine Genauigkeit von 99 Prozent. Daß nur eins von hundert Wörtern falsch erkannt wird, ist mit dieser Windows-Software zu schaffen, wenn man selbst im Diktieren routiniert und Naturally Speaking mit dem verwendeten Vokabular vertraut ist. Die Prozentangaben sind allerdings mit Vorsicht zu betrachten. Der ungeübte Nutzer mit einem reichhaltigen Vokabular, ein Schriftsteller etwa, wird eher bei 95 Prozent liegen. Ein Arzt oder Rechtsanwalt kann auf 100 Prozent Erkennungsgenauigkeit kommen. Probleme wird es hier bei der Umsetzung von Eigennamen geben. Auch gilt: Nicht jeder kann diktieren. Wer sich daran gewöhnt hat, daß Gedankenfetzen erst auf dem Bildschirm mit ständigem Hin- und Herschieben zu schönen Sätzen werden, muß nun vorab im Kopf formulieren, was eine Kunst für sich ist.
Naturally Speaking 9 gibt es in unterschiedlichen Versionen für Windows. Die einfachste Variante für 100 Euro heißt „Standard“. Wir haben das Modell „Preferred“ für 200 Euro und die „Professional“-Variante für 930 Euro ausprobiert. Letzere beherrscht Makros und unterstützt auch Outlook, Lotus Notes sowie die Sprachnotizfunktion von Word. Stets gehört ein Kopfbügelmikrofon für die Soundkarte zum Lieferumfang, leider kein USB-Mikrofon. Der Anfang ist nun einfacher geworden. Früher mußte man einige Minuten lang einen Text vorsprechen, damit sich Naturally Speaking der Stimme und der Sprechweise anpaßt. Darauf kann man nun verzichten und sofort nach der Einstellung des Mikro-Lautstärkepegels loslegen. Aber man sollte diese Fünf-Minuten-Prozedur nach unseren Erfahrungen trotzdem absolvierten, weil dann die Erkennungsrate höher ist. Ratsam ist ferner, Dragon mit E-Mails und eigenen Texten zu füttern, um das mitgelieferte Vokabular (400 000 Worte) zu ergänzen. Schon nach ein, zwei Stunden mit dem Programm stellen sich wunderbare Erfahrungen ein. Wichtig ist, daß man mit den Bordmitteln falsch Erkanntes korrigiert (auch das kann sprachgesteuert erfolgen), damit das System seine Lernfähigkeiten entfaltet. Im Laufe der Zeit sind dann 99 Prozent keine Marketing-Flunkerei. Unserem Eindruck nach wurde die Erkennungsrate gegenüber der Version 8 um rund 10 Prozent gesteigert, vor allem lernt der Drachen schneller. Er schreibt derzeit nur in der „alten“ Fassung der „neuen Rechtschreibung“, kann aber demnächst auf die Änderungen zum 1. August aktualisiert werden.
Einbinden von Diktiergeräten
Weitere Neuheiten der Version 9 liegen im Detail. So ist es nun möglich, Diktiergeräte aller Art einzubinden, nicht nur die Olympus-Produkte, es können die Formate Wav, MP3, WMA und andere genutzt werden. Indes sollte man beim Einsatz eines Diktiergeräts wissen, daß die Erkennungsrate geringer ist, weil der Abstand zwischen Mikrofon und Mund nicht konstant bleibt. Wird draußen diktiert, etwa in der Bahn oder im Auto oder während eines Spaziergangs im Wald, stehen Störgeräusche der Erkennung entgegen. Trotz dieser Hemmnisse erkennt die Version 9 Aufnahmen vom Diktiergerät deutlich besser und schneller als die Vorgängerin. Wir erzielten sehr gute Resultate bei der Umsetzung von Aufnahmen, die im fahrenden Auto entstanden. Noch immer ist die einmalige Anpassung etwas aufwendig. Man kommt um das Vorsprechen eines zwanzigminütigen Textes nicht herum. Ferner lassen sich nun Bluetooth-Mikrofone anbinden, und man kann in der „Professional“-Version die Benutzerdateien auf einem Netzwerk ablegen, um unterwegs mit verschiedenen Geräten auf das eigene Profil und Vokabular zuzugreifen. Mit einer Batch-Verarbeitung lassen sich alle Aufnahmen automatisch umsetzen, die in einem bestimmten Verzeichnis auf der Festplatte oder im Netzwerk eintrudeln: praktisch für den Workflow im Kleinbüro.
Naturally Speaking 9 soll jetzt mit „den meisten“ Windows-Anwendungen zusammenarbeiten, und tatsächlich gehören viele Kompatibilitätsprobleme der Vergangenheit an (ein grüner Indikator zeigt, ob Dragon mit der aktiven Anwendung läuft). Trotzdem hatten wir kleinere Probleme, insbesondere mit bestimmten Seiten im Internet Explorer oder in Firefox. Das alles ist jedoch nicht dramatisch, weil ein neues „Diktierfenster“ dazugekommen ist, das die Texteingabe auch in solchen Programmen erlaubt, die nicht kompatibel sind: ein großer Gewinn. Das neue Dragon ist also sehr empfehlenswert. Es gibt keine bessere Spracherkennung, und das Update auf Version 9 lohnt in jedem Fall.