Home
http://www.faz.net/-gum-2s5h
HERAUSGEGEBEN VON WERNER D'INKA, BERTHOLD KOHLER, GÜNTHER NONNENMACHER, FRANK SCHIRRMACHER, HOLGER STELTZNER

Text-To-Speech Wie funktioniert Text-to-Speech?

06.07.2001 ·  Im Computer sind etliche Schritte nötig, um aus einem geschriebenen Text gesprochene Sprache zu machen.

Von Cornelia Pretzer
Artikel Bilder (1) Lesermeinungen (0)

Ehe Buchstaben zu Sprache werden, sind etliche Schritte nötig. Was der Mensch im Kindesalter lernt - aus Gelesenem Gesprochenes zu machen - ist für Computer immer noch schwierig. Und wenn die Rechner sprechen gelernt haben, hört es sich oft noch sehr maschinenmäßig an. Menschliche Sprache ist eben mehr als das stupide Aneinanderreihen von Silben.

Um mittels Text-to-Speech (TTS) Systemen aus Texten aus Editor, World Wide Web oder Mails gesprochenes Wort zu machen, sind zwei Hauptschritte nötig. Der erste macht aus natürlicher Sprache Daten. Der zweite verarbeitet die erhaltenen Signale weiter und gibt sie schließlich an die Sprachausgabe.

Zwei Hauptmodule

Gerade in den Arbeitsabläufen des ersten Moduls versuchen die Forscher das nachzuvollziehen, was im menschlichen Gehirn bei jedem laut Vorlesen passiert. Damit aus einzelnen Wörtern ganze Sätze werden, muss das Programm den Zusammenhang der Wörter nach Satzbau und Bedeutung erfassen. Wörter die in der gleichen Schreibweise Unterschiedliches bedeuten - wie im Spiel Teekesselchen - sind für die Programme große Probleme. Ein Beispiel dafür ist das Wort Iris, die Blume, der Name und die Regenbogenhaut im Auge.

Bevor der Text überhaupt analysiert wird, bildet das Programm bewältigbare Wortpäckchen und sortiert Zahlen, Abkürzungen und Idiome aus. Die einzelnen Wörter werden nach Buchstaben ausgewertet. Anschließend analysiert der Computer den Kontext der Wörter. Er sucht nach grundsätzlichen Strukturen des Textes. Danach produziert ein Modul auf Basis der vorherigen Analyse Datenpakete, die unter anderem den Klang des einzelnen Buchstabens aber auch die richtigen Silbenlängen darstellen.

Daten zu Lauten

Die Daten aus diesem ersten Modul werden in der digitalen Datenverarbeitung zu Schallwellen und damit Sprache gemacht. Dazu berechnet das Modul nach mathematischen Modellen und Rechenregeln wie die Eingangsdaten sich mit menschlicher Stimme anhören würden. Die Wissenschaftler beschreiben dabei die Luftströme in der Lunge, die Töne, die im Nasen- und Rachenraum entstehen, sowie die Lippenbewegung. Diese Methode ist allerdings sehr aufwendig. Die meisten Firmen sind dazu übergegangen, menschliche Stimmen in entsprechende Silben zu zerschneiden und den Silben eine errechnete Länge und Höhe mitzugeben. Für eine neue Stimme sind etwa sechs Stunden Aufnahme nötig. Dabei sprechen die Menschen entweder kurze Sätze oder sinnlose Worte.

Wie gut TTS-Systeme sind, hängt natürlich davon ab, in welchem Maße all diese Überlegungen in die Programme eingehen. Dazu müssen die Entwickler der einzelnen Programmteile eng zusammenarbeiten, und oft stoßen die Systeme außerdem an wirtschaftliche Grenzen. Denn weitere Verbesserungen würden oft viel Geld kosten. Und eins lernen die Computer in absehbarer Zeit nicht: Betonungen anders als die Standardbetonung zu setzen. Befehle wird uns der Computer also erstmal nicht entgegenbrüllen können, und auch ein erstaunter Ausruf bleibt für ihn zunächst unmöglich!

  Weitersagen Kommentieren Merken Drucken
Weitersagen