https://www.faz.net/aktuell/wissen/maschinelles-lernen-us-forscher-sehen-reproduktionskrise-18215050.html

Maschinelles Lernen : Gefährlicher Überoptimismus

Wie gut sind sie wirklich? Die Leistung von Methoden der „künstlichen Intelligenz“ wird oft überschätzt, sagen Forscher der US-amerikanischen Universität in Princeton. Bild: dpa

Wissenschaftler achten beim maschinellen Lernen oft nicht auf wichtige Details – hierdurch sind Ergebnisse künstlich gut und es kommt zu „wucherndem Überoptimismus“, sagen US-Forscher.

          3 Min.

          Ansätze des maschinellen Lernens sind in der Praxis vielfach erfolgreich, sei es in der Routenplanung, Spracherkennung oder Bildverarbeitung. Doch im Bereich der Forschung erkennen Wissenschaftler der Universität Princeton eine Krise: Die Ergebnisse vieler Studien seien nicht reproduzierbar. In einem aktuellen Preprint führen sie 329 Fachartikel aus diversen Disziplinen an, aus denen Probleme bekannt sind – Forschung zur Neuropsychiatrie, Genomik, IT-Sicherheit, Toxikologie oder Bioinformatik. „Offenbar entdecken alle Felder die Fehler unabhängig voneinander für sich“, sagt der Informatiker Sayash Kapoor aus Princeton.

          Hinnerk Feldwisch-Drentrup
          Redakteur im Ressort „Natur und Wissenschaft“.

          Auf die Problematik aufmerksam seien sie geworden, als sie sich Ansätze zur Vorhersage von Bürgerkriegen näher angesehen haben, sagt Kapoor – hierzu gab es in den vergangenen Jahren einige Studien. All jene, die für die Vorhersagen bessere Ergebnisse als Ansätze der klassischen Statistik erzielt haben wollten, haben erhebliche Reproduzierbarkeitsprobleme aufgewiesen.

          Bei diesen Verfahren des maschinellen Lernens wird ein Trainingsdatensatz – etwa mit Angaben zur wirtschaftlichen Entwicklung oder sozialen Verhältnissen vor Bürgerkriegssituationen – genutzt, um automatisiert Informationen zu identifizieren, die einen prädiktiven Wert haben. Anschließend wird der trainierte Algorithmus auf einen Testdatensatz mit und ohne Bürgerkriegszeiten angewandt, um seine Vorhersagequalität zu berechnen. Dabei ist es von zentraler Bedeutung, dass die für das Training verwendeten Daten nicht bereits Informationen aus den Testdaten oder andere Informationen enthalten haben, die eine überhöhte Vorhersagequalität ergeben würden – beim Bürgerkriegsbeispiel sollten etwa nicht Daten desselben Zeitraums in den beiden Datensätzen enthalten sein.

          Fast alle Fehler führen zur Überschätzung der Leistung

          Kapoor hat vergangene Woche zusammen mit seinem Kollegen Arvind Narayanan zur Thematik der fehlenden Reproduzierbarkeit einen Onlineworkshop mit mehr als 1600 Teilnehmern veranstaltet. Sein Lieblingsbeispiel sei ein Algorithmus, der Bluthochdruck bei Klinikpatienten erkennen sollte, sagt Kapoor. Diesem seien auch Informationen zur Medikation der Patienten verfügbar gewesen – der Algorithmus habe am Ende einfach dadurch den Bluthochdruck erkannt, dass die Patienten Blutdrucksenker nehmen. Hier sprechen Forscher von einer „Daten-Leckage“: wenn einem Algorithmus Informationen zur Verfügung gestellt werden, die dessen Vorhersagekraft künstlich verbessern.

          Während Fehler bei Anwendungen, die bereits breit genutzt werden, zumindest im Alltag auffallen können, ist es in der Forschung schwieriger: Normalerweise werden deren Ergebnisse in Fachartikeln berichtet, die auf Testdatensätzen basieren – und oft eben viel zu gut sind, um wahr zu sein. „Fast alle Fehler führen dazu, dass die Leistung überschätzt wird“, sagt Narayanan – es gebe einen „wuchernden Überoptimismus“, der vielleicht damit zusammenhänge, dass auch kommerzielle Anbieter große Versprechen machen. Die Forscher sehen erheblichen Handlungsbedarf und haben auf dem Workshop daher auch Ansätze vorgestellt, wie derartige Fehler erkannt und vermieden werden können.

          Ist der Hype um künstliche Intelligenz schuld?

          Auch Moritz Hardt betont, dass die Trennung der Trainings- und Testdaten essenziell ist – er ist seit knapp einem Jahr Direktor des Tübinger Max-Planck-Instituts für Intelligente Systeme und hat zuvor in den USA geforscht, teils auch mit dem Team in Princeton. Viele Probleme seien jedoch eigentlich schon lange bekannt. „Neu ist, dass man durch den Hype um Künstliche Intelligenz versucht, es auf neue Bereiche der Wissenschaft anzuwenden“, sagt er. Die Leistung von Methoden des maschinellen Lernens hänge allgemein stark von den verwendeten Daten ab: Ein Algorithmus, der an Daten einer Frankfurter Klinik gute Ergebnisse liefert, sei ohnehin nicht unbedingt auf Daten einer Klinik aus München übertragbar, wenn etwa die Daten leicht anders erhoben werden. Hinzu kommen statistische Probleme, die teils schon in den Neunzigerjahren diskutiert wurden – weil die Ansätze immer mehr in Situationen angewendet werden, für die sie nicht gedacht waren. „Es gibt viele Arten und Weisen, wie maschinelles Lernen scheitern kann“, sagt Hardt.

          Von genereller Krisenstimmung will er nicht sprechen – bei kommerziellen Anwendungen gebe es viel Optimismus, die Forscherseite sei jedoch teils pessimistischer. Dies könne aber auch Fortschritt ermöglichen: „Es kann natürlich sein, dass man jetzt besser versteht, wann man maschinelles Lernen nicht einsetzen kann“, sagt Hardt. Wichtig sei, den politischen Kontext im Blick zu haben: Wenn Algorithmen Entscheidungen treffen sollen, die gravierende Konsequenzen haben, seien Fragen der Gültigkeit der Ergebnisse besonders relevant.

          Ähnlich sieht es die Informatikerin Katharina Morik von der TU Dortmund – Fachfremde würden teils ohne entsprechende Ausbildung Methoden des maschinellen Lernens falsch anwenden. „Es wird oft nicht anerkannt, dass Künstliche Intelligenz und insbesondere das maschinelle Lernen eines gründlichen Studiums bedarf“, sagt die Expertin; Soft­waretools seien einfach verfüg- und bedienbar. „Das verführt Wissenschaftler anderer Disziplinen vielleicht dazu, sich ohne Kenntnisse an die Analyse von Daten zu wagen“, sagt Morik. „Es braucht viel mehr Professuren für maschinelles Lernen, damit genügend Menschen ausgebildet werden können.“

          Weitere Themen

          Topmeldungen

          Wladimir Putin beim informellen GUS-Gipfel in Sankt Petersburg

          Wladimir Putin wird 70 : Ein einsamer Tag voller Arbeit

          Der Jubeltag des Präsidenten sollte ein ganz normaler Tag sein. Die Armeeführung ist bemüht, „zurückgeschlagene Angriffe“ und „vernichtete“ ukrainische Soldaten zu vermelden.
          Zuletzt beim Alten Fritz? In Berlin ging schon lange nichts mehr glatt.

          Fraktur : Die Qual der Wahl

          Müssen in Berlin wirklich noch einmal alle Parteien auf dem Stimmzettel stehen? Auch die Entscheidung zwischen Schlottern und Surfen fällt nicht leicht.

          Newsletter

          Immer auf dem Laufenden Sie haben Post! Die wichtigsten Nachrichten direkt in Ihre Mailbox. Sie können bis zu 5 Newsletter gleichzeitig auswählen Es ist ein Fehler aufgetreten. Bitte versuchen Sie es erneut.
          Vielen Dank für Ihr Interesse an den F.A.Z.-Newslettern. Sie erhalten in wenigen Minuten eine E-Mail, um Ihre Newsletterbestellung zu bestätigen.