19. September 2008 Kann man eine Spracherkennung am PC auch zur Verschriftlichung von Interviews einsetzen? Diese Frage wird uns immer wieder gestellt, nicht nur von Kollegen aus dem journalistischen Umfeld, sondern auch von Studenten, die in der Sozialforschung oder Psychologie lange Wortinterviews transkribieren müssen. Wer seine Aufzeichnungen von einem Dienstleister abschreiben lässt, zahlt ungefähr 150 bis 200 Euro je Stunde Gesprächszeit und wartet mehrere Tage auf die Datei. So liegt der Einsatz pfiffiger Software also nahe. Das Standardsystem Dragon Naturally Speaking für Windows erreicht zudem eine nahezu perfekte Erkennungsleistung, bei geübten Diktierern. Mit diesem Nebensatz sind die Probleme schon angesprochen. Dragon ist ein Diktiersystem. Es erwartet, dass der Sprecher ein kurzes, etwa fünf- bis zehnminütiges Training absolviert hat, bei dem die Eigenheiten seiner Aussprache erfasst und in einem Benutzerprofil gespeichert werden. Es setzt weiterhin voraus, dass man sein persönliches Vokabular einspeist und vor allem kontinuierlich korrigiert, denn Dragon lernt aus seinen Fehlern.
Auch muss man diktieren können und das Diktat als Arbeitstechnik beherrschen. So ist nicht zu erwarten, dass die Software zehn Minuten nach der Installation eine beliebige Aufnahme perfekt umsetzt. Erst wenn man zwei, drei Wochen intensiv mit Dragon gearbeitet hat, stellen sich gute Ergebnisse ein. Hinzu kommen weitere technische Beschränkungen. Dragon lässt sich zwar mit verschiedenen Sprechern einsetzen, aber es ist stets nur ein Profil aktiv. Für die Verschriftlichung von Interviews müsste die Software nicht nur die Sprachmodelle der Beteiligten parat haben, sondern den jeweils aktiven Sprecher identifizieren und umschalten (und der andere dürfte nicht dazwischenreden). Das alles funktioniert aber nicht. Weiterhin werden beim Diktat die Interpunktionszeichen und Absatzenden gesprochen: Dragon orientiert sich daran und erkennt auf diese Weise sinnhaft Zusammengehörendes. Auch dieses wichtige Detail fehlt bei der gewohnten Konversation, bestenfalls käme also nur eine Aneinanderreihung einzelner Worte ohne Punkt und Komma dabei heraus.
Die Akustik ist eher schlecht
Um das Ganze in der Praxis auszuprobieren, setzten wir dem Drachen ein mit dem Diktiergerät aufgenommenes Interview vor. Die Akustik ist eher schlecht, mehrere Gesprächspartner sitzen weit voneinander entfernt, eine Stimme ist nur sehr leise zu hören. Lärm im Hintergrund stört. Das Ergebnis ist wie erwartet: Dragon arbeitet nahezu endlos vor sich hin und versucht, irgendwelche vernünftigen Sätze zu formen, scheitert aber. Es werden nur unzusammenhängende einzelne Wörter transkribiert.
Im nächsten Anlauf nehmen wir mit besserem Equipment in sehr ruhiger Umgebung auf. Jeder Beteiligte hat sein eigenes Mikrofon vor sich. Beim ersten Sprecher, dessen Benutzerprofil geladen ist, gelingt eine ordentliche Transkription, wenngleich ohne Punkt und Komma. Aber für den zweiten fehlt das Sprachmodell, und damit gerät Naturally Speaking ins Stolpern. Viele Begriffe werden zwar richtig erkannt, aber brauchbar ist das Ganze nicht. Es fehlt also ein universelles Benutzerprofil unabhängig von Sprecher, Dialekt, Geschlecht und Alter. So etwas gibt es für die englische Sprache beim amerikanischen Anbieter Know Brainer (www.knowbrainer.com). Der Hersteller verspricht viel für sein Uni Voice: Es sei besser als ein selbsterstelltes Profil. Das können wir nicht beurteilen, aber angemerkt sei doch, dass Firmenchef Lunis Orcutt der amerikanische Spracherkennungs-Guru ist.
Bordmitteln von Dragon Naturally Speaking
So bleibt also bis hier festzuhalten, dass man mit den Bordmitteln von Dragon Naturally Speaking bei der Verschriftlichung von Interviews nicht weit kommt. Allerdings gibt es einen kleinen Hoffnungsschimmer, nämlich das Synchrondiktat: Der Transkriptionist hört auf gewohnte Weise das Interview ab (etwa mit Kopfhörern und einem Fußschalter zur Wiedergabesteuerung), tippt aber nicht in den PC, sondern diktiert. Entweder direkt via Headset in ein laufendes Dragon Naturally Speaking oder zunächst ins Diktiergerät mit anschließender Umsetzung.
Eine Wissenschaftler-Gruppe um Thorsten Dresing hat dazu unlängst eine interessante Untersuchung im Forum Qualitative Sozialforschung veröffentlicht. Für ihren Versuch ließen sie sozialwissenschaftliche Interviews von Studenten verschriftlichen. Einmal wie gewohnt durch Abhören und Abtippen und dann mit Hilfe der Spracherkennung und des Synchrondiktats. Die 20 Probanden benötigten mit der Spracherkennung ebenso lange wie mit dem Abschreiben, nämlich fast die zehnfache Dauer des Interviews. Das Ergebnis wundert kaum, denn die Studenten waren vollkommen ungeübt in Sachen Spracherkennung und arbeiteten während des Experiments das erste Mal mit Dragon: So wurde beklagt, dass man eine deutliche Aussprache haben und sich sehr konzentrieren müsse.
Eigene Versuche mit dem Diktiergerät
Das kann es ja wohl nicht gewesen sein, dachten wir und starteten eigene Versuche mit dem Diktiergerät. Ein Stückchen hören, dann diktieren: Das ist in der Tat sehr anstrengend und erfordert volle Aufmerksamkeit. Wir benötigten ungefähr die zwei- bis dreifache Interviewzeit für das Diktat. Der Aufwand variiert mit dem Sprechverhalten der Gesprächspartner, dem Tempo des Interviews und der Disziplin der Beteiligten. Dazu kommt anschließend die Erkennung durch die Software (die automatisch läuft, man muss dabei nicht vor dem PC sitzen). Der geübte Dragon-Nutzer ist also deutlich schneller als das Studententeam ohne Erfahrung.
Es geht sogar noch flinker: Schriftdolmetscher sind in der Lage, das gesprochene Wort nahezu in Echtzeit zu transkribieren. Sie werden eingesetzt, um Hörgeschädigten die Teilnahme an Reden und Vorträgen zu erlauben (www.kombia.de). Interessant sind auch ganz neue Ansätze zur Echtzeiterfassung von Radio- oder Fernsehbeiträgen mit automatischer Unterscheidung und Identifikation verschiedener Sprecher. Hier wird man allerdings nicht mit perfekten Erkennungsleistungen rechnen können. Solche Produkte wurden bislang überwiegend von den Geheimdiensten eingesetzt, um automatisch Gespräche nach bestimmten Schlüsselbegriffen zu filtern, nun gibt es dergleichen als Media Mining Indexer für jedermann vom Hersteller Sail Labs.
Text: F.A.Z.
Bildmaterial: Damm