https://www.faz.net/-gqe-9kc8v

Browser-Betreiber : Mozilla macht größten Datensatz menschlicher Stimmen frei verfügbar

  • Aktualisiert am

Ein Mozilla-Firefox-Poster auf dem Mobile World Congress in Barcelona Bild: AFP

Das Unternehmen aus San Francisco will damit vor allem kleineren Herstellern bei der Entwicklung von Spracherkennungssystemen helfen.

          1 Min.

          Mozilla, der Hersteller des Firefox-Browsers, hat den größten Datensatz menschlicher Stimmen verfügbar gemacht, der komplett von Freiwilligen eingesprochen wurde. Mit dem Projekt „Common Voice“ soll der weltweit vielfältigste Sprachdatensatz erstellt werden, der für die Entwicklung von Sprachtechnologien optimiert ist.

          Das Unternehmen in San Francisco will damit vor allem kleineren Herstellern und Crowdfunding-Projekten ohne Lizenzgebühren ermöglichen, eigene Spracherkennungssysteme zu entwickeln. Bislang dominieren die großen Internetkonzerne wie Google, Microsoft, IBM, Amazon und Apple den Markt für Spracherkennung. Wichtiger Player ist außerdem das Unternehmen Nuance, dessen Technik hinter der Spracherkennung von Apples Siri steckt.

          Der Datensatz von Mozilla umfasst nach Angaben des Unternehmens 18 verschiedene Sprachen, darunter Englisch, Französisch, Deutsch und Mandarin (traditionell), aber auch beispielsweise Walisisch und Kabyle, eine algerische Berbersprache. Der Datensatz summiert sich zu fast 1400 Stunden aufgezeichneter Sprachdaten von mehr als 42.000 Mitwirkenden.

          Die von Mozilla eingesammelten Daten stehen unter der „CC0“-Lizenz zur Verfügung. Das ist die freizügigste Variante der Creative-Commons-Lizenzen (“No rights reserved“). Die Projekt-Teilnehmer haben dabei freiwillig auch Metadaten wie Alter, Geschlecht und Akzent angeben. „Damit werden gemeinsam mit ihren Aufzeichnungen weitere Informationen gespeichert, mit denen Sprach-Engines noch besser trainiert werden können“, heißt es in dem Blog-Eintrag von Mozilla.

          Man wolle „zu einem vielfältigen und innovativen Ökosystem an Sprachtechnologien“ beitragen. Ziel sei es, eigene sprachgesteuerte Produkte auf den Markt zu bringen, aber auch Forscher und kleinere Akteure zu unterstützen.

          Weitere Themen

          Topmeldungen

          Die Geduld der Amerikaner werde getestet, sagte Präsident Donald Trump.

          Corona-Krise : Trump schwört Amerika auf Tragödie ein

          Wie bereits in China baut nun das Militär in den Vereinigten Staaten temporäre Coronavirus-Spitäler auf. Die Regierungsprognosen für die Anzahl an Virustoten ist niederschmetternd.
          Auf sich allein gestellt: Migranten im spanischen Lepe

          Asylbewerber ohne Hilfe : Nach Spanien kommen kaum noch Migranten

          Vor der Corona-Krise landeten zeitweilig nirgendwo in Europa so viel Migranten wie in Spanien. Jetzt kommen nur sehr wenige. Die 120.000 Asylbewerber, die sich bereits im Land befinden, sind nun auf sich allein gestellt.

          Newsletter

          Immer auf dem Laufenden Sie haben Post! Abonnieren Sie unsere FAZ.NET-Newsletter und wir liefern die wichtigsten Nachrichten direkt in Ihre Mailbox. Es ist ein Fehler aufgetreten. Bitte versuchen Sie es erneut.
          Vielen Dank für Ihr Interesse an den F.A.Z.-Newslettern. Sie erhalten in wenigen Minuten eine E-Mail, um Ihre Newsletterbestellung zu bestätigen.