https://www.faz.net/-gy9-9mmlq

Software Eve : Text an der Wand von Geisterhand

Lesen statt lauschen: Vorn steht der Sprecher, an der Seite läuft automatisch der gesprochene Text, dank der Software Eve. Bild: Hersteller

Wer nicht hören kann, muss lesen. Deutsche Software erstellt automatisch Untertitel für Vorträge und Debatten. Wir haben das ausprobiert.

          Wenn von Barrierefreiheit die Rede ist, stößt man in der digitalen Welt schnell auf zwei wichtige Themen: Die Audiotranskription für Blinde und die Untertitelung für Gehörlose und Schwerhörige. Konferenzen, Hauptversammlungen und politische Debatten müssten eigentlich durchgängig transkribiert werden. In vielen Ländern gibt es Richtlinien für barrierefreie Inhalte. Unternehmen und öffentliche Einrichtungen sind dann zur Transkription ihrer Veranstaltungen verpflichtet, und das bedeutet viel Personal.

          Michael Spehr

          Redakteur im Ressort „Technik und Motor“.

          Die Untertitelung für Gehörlose und Schwerhörige in Echtzeit soll nun einfacher werden. Ein deutsches Start-up mit dem Gründer Tom Papadhimas hat eine Lösung auf die Beine gestellt, die von Anfang an große Unternehmen wie Microsoft überzeugte und schon auf internationalen Veranstaltungen eingesetzt wird. Die Software „Eve“ von „Filmgsindl“ aus Berlin erkennt Sprache und generiert daraus automatische Live-Untertitel für Menschen, die schlecht hören. Das System auf www.starteve.ai hat das Rad nicht neu erfunden, denn Spracherkennung mitsamt der Überführung des gesprochenen Worts in Text gibt es schon lange, und damit sind nicht nur Helfer wie Siri oder die Google-Spracherkennung gemeint, sondern auch die Spezialisten für professionelles Arbeiten, namentlich der amerikanische Hersteller Nuance.

          Eve verwendet neben einer Spracherkennung Microsoft Azure, die Cloud-Plattform des amerikanischen Unternehmens. Um den Kern der Spracherkennung wurde eine im Web laufende Anwendung gestrickt, die sowohl im Browser-Fenster wie auch auf dem Smartphone arbeitet. Untertitel werden auf großen Monitoren im Veranstaltungsraum ausgegeben oder auch zusätzlich im Netz, abermals wird das Smartphone unterstützt. Die Software verspricht, die komplette Verschriftlichung zu erledigen. Man benötigt nur einen halbwegs schnellen Internetzugang, gute Mikrofone für die Erfassung des gesprochenen Worts und natürlich die Monitore zur Anzeige der Untertitel.

          Wer die Tücken der Spracherkennung kennt, weiß jedoch, dass die Ergebnisse nie perfekt sind. Die Idee von Eve besteht darin, dass Korrektoren manuell eingreifen können und jeden einzelnen übersetzten Satz vor der Anzeige prüfen und freigeben. Dann kommt also doch wieder der Mensch ins Spiel. Es gibt verschiedene Modi der Korrektur, sowohl für schnelle, professionelle Mitarbeiter wie auch für Anfänger, die mehr Zeit brauchen. Dann entsteht allerdings ein Zeitversatz zwischen dem gesprochenen Wort und der Anzeige. Im Wettstreit war Eve mitsamt Helfer einem professionellen Stenografen deutlich überlegen, sagt der Hersteller. Hier liegt der wichtigste Pluspunkt des Systems: Es ist viel günstiger als die üblicherweise sonst eingesetzte manuelle Transkription, für die mehrere Personen vor Ort gebraucht werden.

          Für Eve reicht meist eine Korrekturperson aus, und die kann dank Internet irgendwo auf der Welt sitzen, muss also nicht eigens anreisen. Eve kostet 120 Euro pro Stunde, die Transkriptionszeit wird sekundengenau abgerechnet. Für eine fünfstündige Veranstaltung fallen also gerade mal 600 Euro an, verglichen mit den Reisekosten mehrerer Stenografen ist das nicht viel. Bis zu 1000 Zuschauer können sich live via Internet oder Smartphone in die Veranstaltung einwählen, dazu dient ein Link oder QR-Code, auf Wunsch auch mit Kennwort. Am Ende erstellt Eve automatisch ein PDF oder eine Word-Datei, damit auch der Dokumentationspflicht Genüge getan ist.

          Nachbearbeitung ist notwendig

          Wir haben Eve mit zwei Sprechern ausprobiert, vor uns stand ein Notebook, dessen Mikrofone die Unterhaltung aufzeichneten. Die Qualität der Transkription hängt davon ab, wie diszipliniert man spricht. Im besten Fall entspricht sie Siri oder dem Google-Erkenner auf dem Smartphone. Aber es gibt ein paar Pluspunkte: Absätze werden automatisch eingefügt, bisweilen auch Punkt und Komma. Als sich die beiden Sprecher ins Wort fielen, entstand schönstes Kauderwelsch, das intensiv nachbearbeitet werden musste. Mit ähnlichen Einschränkungen muss man auch die maschinelle Übersetzung der Transkription in verschiedene Sprachen sehen, auch hier bleibt der Mensch als Prüfinstanz unabdingbar. Eve versteht derzeit Deutsch, Englisch und Chinesisch, Übersetzungen ins Französische, Italienische und Spanische sind in Vorbereitung. Ist eine höhere Erkennungsrate gefragt, können die Kunden ihre eigenen Wörterbücher hochladen. Das System ist selbstlernend, einmal korrigierte Fehler sollten kein zweites Mal vorkommen.

          Schließlich probierten wir Eve bei der Transkription eines Telefoninterviews aus. Auf dem iPad Pro mit seinen vier Lautsprechern wurde ein Radiointerview abgespielt, das eine sehr ordentliche Akustik hatte. Am Rechner waren wir in Eve eingeloggt, und die Aufnahme übernahm ein Philips-Diktiermikrofon, das zusammen mit der Nuance-Spracherkennung beste Ergebnisse liefert. Das Ergebnis: Es ist interessant, vielleicht eine Hilfe, aber stark bearbeitungsbedürftig.

          Alternative Systeme

          Jetzt waren wir auf den Geschmack gekommen und ließen noch einen weiteren Vergleich laufen: Die Dragon-Software auf dem Rechner setzte ein Diktat im MP3-Format um, und dieselbe MP3-Datei musste Eve transkribieren. Hier legte Eve durchaus einen Achtungserfolg hin, lieferte aber deutlich mehr Fehler.

          Wer als privater Nutzer etwas Ähnliches ausprobieren möchte, mag in der Android-Welt einen Blick auf die App „Automatische Transkription“ von Google werfen. Ist sie gestartet, wird der verstandene Text auf dem Bildschirm angezeigt. Die Software erkennt unterschiedliche Sprachen und erlaubt eine Reihe von Feineinstellungen. Was jedoch fehlt, ist die Option, die Transkription für die eigene Bearbeitung zu speichern.

          Weitere Themen

          Die neue Mündlichkeit

          FAZ Plus Artikel: Youtube : Die neue Mündlichkeit

          Rezos Video rechnet mit Lesern, die lesen können, aber meistens nicht gelesen haben, was er für sie gelesen hat. Wie Youtube das Verhältnis von gesprochenem Wort, Schrift und Wissen verändert.

          Topmeldungen

          Wirft hin: Patrick Shanahan wird nicht amerikanischer Verteidigungsminister.

          Rückzug von Shanahan : Keine Ruhe im Pentagon

          Mitten in der Iran-Krise verliert Donald Trump seinen amtierenden Verteidigungsminister. Der Wunschkandidat des Präsidenten hat sich zurückgezogen – wegen eines „traumatischen Kapitels“ in seinem Familienleben.
          Der 22 Jahre alte Ali B. dementiert weiterhin die Vergewaltigung von Susanna F.

          Psychiaterin über Ali B. : Egozentrisch, manipulativ, empathielos

          Im Prozess um die getötete Schülerin Susanna F. aus Mainz berichtet wenige Wochen vor dem Urteilstermin die psychiatrische Gutachterin. Den angeklagten Ali B. beschreibt sie als faulen und frauenverachtenden Mann, der in seinem Leben immer nur an sich selbst gedacht habe.
          Will ihren WM Titel von 2018 verteidigen: Kickboxerin Marie Lang

          FAZ Plus Artikel: Kickbox-Weltmeisterin Lang : Vom Küken zur Kriegerin

          Als Marie Lang zum Kickboxem kam, war sie ein „megaschüchterner Teenie“ – immer in der Opferrolle, wenn sie in der Disco einer begrapscht hat. Dank ihres Sports und ihres Trainers ist sie nun stark. Nur eines ist geblieben.

          Newsletter

          Immer auf dem Laufenden Sie haben Post! Abonnieren Sie unsere FAZ.NET-Newsletter und wir liefern die wichtigsten Nachrichten direkt in Ihre Mailbox. Es ist ein Fehler aufgetreten. Bitte versuchen Sie es erneut.
          Vielen Dank für Ihr Interesse an den F.A.Z.-Newslettern. Sie erhalten in wenigen Minuten eine E-Mail, um Ihre Newsletterbestellung zu bestätigen.