http://www.faz.net/-gqz-99www

Digital Humanities (1/6) : Sprachwissenschaft: Altbewährtes frischgemacht

  • -Aktualisiert am

Schriftanalyse mit dem Röntgenfluoreszenz-Spektrometer Bild: SFG Manuskriptkulturen

Die Linguistik ist die digitale Geisteswissenschaft par excellence. Mit verbesserten Instrumenten dringt sie heute tiefer als je zuvor in die Sprachwirklichkeit ein.

          Wir sprechen anders. Warum Computer nicht sprechen können“, hieß ein Buch, das vor dreißig Jahren erschien, herausgegeben von den Präsidenten der Akademie für Sprache und Dichtung Hans-Martin Gauger und Herbert Heckmann. Der Titel spricht dem Computer die Sprachfähigkeit gleichzeitig zu („anders“) und ab („nicht“) – eine schräge Logik, die aber das ebenso enge wie spannungsreiche Verhältnis zwischen Sprachwissenschaft und digitaler Datenverarbeitung sehr schön spiegelt.

          Seit den Anfängen, als noch raumfüllende „Elektronengehirne“ mit Lochkarten gefüttert wurden, ist der Computer für viele Linguisten mehr als nur ein Instrument der Datenverarbeitung. Sie sehen in der Logik seiner Algorithmen ein Modell für die Systematik menschlicher Sprachen. Inspiriert von der Theorie abstrakter Automaten und den Strukturen der Programmiercodes, die nicht zufällig ebenfalls „Sprachen“ genannt werden, hat sich seit den fünfziger Jahren eine weitverzweigte Familie von Grammatiktheorien herausgebildet, die auf den ersten Blick eher an Mathematik als an Sprache erinnern.

          Parallel dazu entstand die Computerlinguistik, die schnell zu einer Leitdisziplin der Künstlichen Intelligenz wurde. Deutsche Wissenschaftler gehören in diesem Bereich heute zur internationalen Spitze. Ein wichtiger Standort der Computerlinguistik ist das Deutsche Forschungszentrum für Künstliche Intelligenz in Saarbrücken, aber auch an Universitäten wie Potsdam, München oder Trier ist sie etabliert.

          Pragmatische Wende

          Im Grenzbereich zwischen Linguistik und Informatik entwickeln die Wissenschaftler Programme für die automatische Erzeugung von Texten, für maschinelle Übersetzungen und die Auswertung der Internetkommunikation, sie konstruieren Chatbots und Expertensysteme, arbeiten an der Optimierung von Suchmaschinen und an Methoden zur Identifikation anonymer Verfasser von Texten. Zugleich aber ist der Computer auch immer eine Testmaschine, die die Grenzen der Automatisierbarkeit anzeigt: Wenn Sprachverarbeitungsprogramme scheitern, liegt das oft an den Unschärfen und Mehrdeutigkeiten von Sprache. Menschen können sie in der alltäglichen Kommunikation mühelos entschlüsseln, der maschinellen Logik aber verweigern sie sich. Scheinbare Banalitäten entpuppen sich für den Computer als schwer zu überwindende Hindernisse und werfen ein Licht auf die unbewussten, aber komplexen Voraussetzungen des Sprechens und Verstehens.

          In früheren Jahrzehnten entzündeten sich an solchen Punkten oft Grundsatzdiskussionen. Viele Computerlinguisten und KI-Forscher hatten den Ehrgeiz, nachzuweisen, dass Geist und Sprache im Prinzip wie Software funktionieren, die auf der Hardware des Gehirns läuft. Ihre humanistisch gesinnten Gegner sahen darin eine technizistische Verengung, die die subjektiven wie auch die gesellschaftlichen Momente der Sprache ausblendet. Das Buch von Gauger und Heckmann mit dem sprachlos sprechenden Computer ist eine Frucht dieser Kontroversen. Der Bezug auf die Informatik – ob zustimmend oder kritisch – war und ist für viele Linguisten ein wissenschaftstheoretischer Basso continuo. Er hat die Linguistik zur digitalen Geisteswissenschaft par excellence gemacht, lange bevor die „Digital Humanities“ ihre Karriere starteten.

          In der Computerlinguistik hat allerdings mittlerweile die pragmatische Denkweise des Ingenieurs die theoretische Neugier des Grundlagenforschers vielfach ersetzt: Man freut sich, wenn die Spracherkennungssoftware, der digitale Assistent, das Übersetzungsprogramm ihre praktischen Aufgaben erfüllen, und schiebt die „philosophischen“ Fragen in den Hintergrund. Dem entsprechen auch die angewandten Methoden. Viele Programme analysieren die Sätze und ihre grammatischen Strukturen nicht mehr wie früher mit Hilfe komplizierter Regelsysteme. Stattdessen prognostizieren sie die dahintersteckenden Bedeutungen auf der Basis statistischer Wahrscheinlichkeiten, nachdem sie vorher anhand von Beispieltexten trainiert und optimiert wurden.

          Der Vorteil großer Datenmengen

          Möglich ist das, weil sich Rechengeschwindigkeit und Speicherkapazität gegenüber den Anfangstagen der Computerlinguistik enorm erhöht haben. Ein wichtiges Anwendungsgebiet ist das „Text-Mining“, das Schürfen nach Informationen, Stimmungsbildern oder Meinungstrends in den Textmassen von Internet und Datenbanken. Daran sind nicht nur Geistes- und Sozialwissenschaftler interessiert, sondern auch Marktforscher, Wahlkampfstrategen und Nachrichtendienste. Aber auch in den Zeiten von „Big Data“ sind die methodischen Probleme vergangener Tage keineswegs überwunden: Einen Algorithmus, der zwischen den Zeilen lesen kann, gibt es immer noch nicht.

          Von der Möglichkeit, auf riesige Mengen digitaler Daten zuzugreifen, profitieren auch die Bereiche der Linguistik, in denen es nicht um maschinelle Sprachverarbeitung geht. Sprachwissenschaftlern, die Veränderungen des Wortschatzes und der Grammatik auf der Spur sind oder sich für die Muster der Chatkommunikation oder die Auswirkungen des „Genderns“ interessieren, stehen inzwischen große digitale Text-Datenbanken zur Verfügung. Sie lassen sich gezielt nach kommunikativen, lexikalischen und grammatischen Kriterien durchsuchen und eignen sich deshalb für Forschungszwecke oft besser als bloße Internetrecherchen. Die weltweit größte Datensammlung der deutschen Gegenwartssprache unterhält das Mannheimer Institut für deutsche Sprache. Sein Deutsches Referenzkorpus umfasst zurzeit 42 Milliarden Wörter und wird beständig ausgebaut. Das Spektrum der hier gespeicherten Texte spannt sich von Zeitungsartikeln über wissenschaftliche Aufsätze, Parlamentsprotokolle und Belletristik bis hin zu Wikipedia-Diskussionen und Fußball-Liveticker-Berichten. Andere Korpora sind auf sprachgeschichtliche Epochen oder spezielle Bereiche wie Internetkommunikation oder Alltagsdialoge ausgerichtet. Hinzu kommt eine Vielzahl digitaler Wörterbücher.

          Häufigkeit als neue Norm

          Gegenüber vergangenen Zeiten, als der Sprachforscher auf seinen Zettelkasten verwiesen war, steigern die digitalen Ressourcen die empirische Aussagekraft linguistischer Studien beträchtlich: Wer wissen will, ob die Substantive wirklich ihre grammatischen Endungen verlieren, die starken von den schwachen Verben verdrängt werden oder der Satzbau immer mehr versimpelt, kann zur Überprüfung seiner Hypothesen jetzt tiefer in die Sprachwirklichkeit eindringen als früher. Dabei bekommt er auch sprachliche Varianten in den Blick, von denen er vielleicht gar nicht ahnte, dass es sie gibt. Diese Entwicklung macht sich auch in populären Nachschlagewerken wie zum Beispiel den Wörterbüchern und Grammatiken des Dudens bemerkbar. Deren Autoren stützen sich ebenfalls auf die Auswertung großer Datensammlungen – die Beschränkung auf Belege „vorbildlicher“ Schriftsteller ist längst Geschichte. Indem die Duden-Grammatik die Häufigkeit, mit der sprachliche Formen gebraucht werden, immer mehr zum Maßstab der Akzeptanz macht, gibt sie ihre Rolle als normsetzende Instanz schrittweise auf und bildet stattdessen den jeweiligen Ist-Zustand ab. Was die Grammatiker als sprachlichen Realismus betrachten, erscheint in den Augen eines normativ gestimmten Publikums allerdings eher als Opportunismus.

          Die digitalen Korpora stehen nicht nur professoralen Forschern zur Verfügung. Auch Studenten, die ihre Hausarbeit schreiben, können sie anzapfen. Wie sich diese Möglichkeiten nutzen lassen, ohne im Datenmeer zu ertrinken oder statistische Fehlschlüsse zu ziehen, lernen sie in Seminaren zur Korpuslinguistik. Diese datengetriebene Subdisziplin entspricht wohl am stärksten dem, was momentan auch in anderen Fächern unter „Digital Humanities“ verstanden wird. Wie die Computerlinguistik gab es aber auch die Korpuslinguistik schon lange vor dem digitalen Hype. Für die Sprachwissenschaft sind die „Digital Humanities“ kein neues Forschungsparadigma, sondern ein zeitgeistiges Etikett auf altbewährten Ansätzen.

          Weitere Themen

          Bloggen mit 105 Video-Seite öffnen

          Schweden : Bloggen mit 105

          Fast einhundert Jahre kam die Schwedin Carlsson ohne Computer aus, jetzt hat sie sogar ihren eigenen Blog. Damit dürfte sie die älteste Bloggerin der Welt sein. Und endlich hat sich auch ihr Traum von der Schriftstellerkarriere erfüllt.

          Männermangel in Mossul Video-Seite öffnen

          Schwierige Partnersuche : Männermangel in Mossul

          Besonders für viele junge Menschen bedeutet die Rückkehr zur Normalität, endlich zu heiraten und eine Familie zu gründen. Viele Männer sind aber geflohen oder haben nicht genug Geld, um eine Hochzeit zu bezahlen.

          Topmeldungen

          Pokal-Party in Frankfurt : Balkon, Pott, Ausnahmezustand

          Ausnahmezustand in Frankfurt: Die Stadt feiert ihr Team am Römer. Während Niko Kovac dabei erst sprachlos ist, spricht der Bürgermeister von einem besonderen Versprechen des nun ehemaligen Trainers.

          Neuer PSG-Trainer vorgestellt : Bonjour, ici c’est Tuchel

          Bonjour á Paris: Thomas Tuchel zeigt sich euphorisiert ob seiner neuen Aufgabe bei PSG. Dem Team um den brasilianischen Superstar Neymar will er einen neuen Mannschaftsgeist geben. Und er spricht schon über einen möglichen Transfer.

          Newsletter

          Immer auf dem Laufenden Sie haben Post! Abonnieren Sie unsere FAZ.NET-Newsletter und wir liefern die wichtigsten Nachrichten direkt in Ihre Mailbox. Es ist ein Fehler aufgetreten. Bitte versuchen Sie es erneut.
          Vielen Dank für Ihr Interesse an den F.A.Z.-Newslettern. Sie erhalten in wenigen Minuten eine E-Mail, um Ihre Newsletterbestellung zu bestätigen.