https://www.faz.net/-gwz-9z3w4

Überschätzte KI : Sind Algorithmen tatsächlich die besseren Ärzte?

  • -Aktualisiert am

Ernüchternde Studienergebnisse

Nagendran und seine Kollegen haben nun untersucht, wie hochwertig die Qualität der in den vergangenen zehn Jahren veröffentlichten Studien ist und wie evidenzbasiert deren Schlussfolgerungen sind. Die Analyse war ernüchternd. Die Wissenschaftler fanden heraus, dass zwischen 2010 und 2019 nur zwei hochwertige, randomisierte klinische Studien publiziert worden sind, beide im vergangenen Jahr. Beide wurden in China vorgenommen. Acht randomisierte Studien laufen derzeit, eine davon in den Vereinigten Staaten. Trotzdem sind dort bereits 16 Deep-Learning-Algorithmen für die Auswertung medizinischer Bilddaten durch die amerikanische Food und Drug Administration zugelassen worden.

Randomisierte klinische Studien sind das beste Mittel, um zwei Vorgehensweisen zu vergleichen. Bei den beiden bisher publizierten randomisierten Studien hatten die erfahrenen Ärzte in einer Studiengruppe allein entschieden, in der anderen Studiengruppe hatten sie sich von dem Algorithmus unterstützen lassen. Von den 81 nicht randomisierten Studien, die den Einschlusskriterien entsprachen, hatten nur neun Studien ein prospektives Design. Bei solchen Studien werden keine Gruppen gebildet und verglichen, sondern Daten zu einer bestimmten Fragestellung über die Zeit erhoben und ausgewertet. Allerdings fanden nur sechs dieser prospektiven Studien unter klinischen Alltagsbedingungen statt und hatten damit überhaupt das Potential, irgendetwas zur diagnostischen Qualität der getesteten Algorithmen unter Routinebedingungen zu sagen. 58 der 81 Studien waren hochgradig verzerrt. Sie besaßen ein minderwertiges Studiendesign oder wichen von anerkannten Standards ab.

Überzogene Behauptungen

Trotzdem kamen insgesamt 61 Studien zu dem Schluss, dass die Leistung der Algorithmen mit der Leistung der erfahrenen Ärzte vergleichbar oder sogar besser war. Nur bei 31 Studien waren die Studienleiter so selbstkritisch, dass sie bei der Zusammenfassung oder der Diskussion ihrer Ergebnisse weitere Studien zur Absicherung forderten. Nagendran und seine Kollegen bemängeln zudem, dass an den Studien im Durchschnitt nur jeweils vier erfahrene Ärzte teilgenommen hatten. Angesichts der Tatsache, dass auch erfahrene Ärzte unterschiedlich gut sind, muss die Gruppe größer sein, um das Ergebnis statistisch abzusichern. Bei den wenigsten Studien war ein Zugriff auf die Rohdaten und den Code möglich. Damit kann der Algorithmus nicht von anderen Fachleuten überprüft werden.

Die Autoren gehen allerdings auch selbstkritisch mit ihrer eigenen Studie um und verweisen auf deren Schwächen. Sie können zum Beispiel nicht ausschließen, dass sie relevante Studien übersehen haben. Sie haben sich auf die Bilderkennung durch Deep Learning konzentriert. Ihr Vorwurf, dass viele Studien nicht die gebotene Qualität besitzen, könne in anderen Bereichen, in denen Künstliche Intelligenz in der Medizin verwendet wird, anders sein. Nagendran und seine Kollegen kommen durch ihre Analyse zu dem Schluss, dass viele der bisherigen Behauptungen überzogen sind. Sie sehen darin sogar ein mögliches Gesundheitsrisiko für die Patienten und warnen davor, Studien durch übertriebene Formulierungen anfällig für Fehlinterpretationen zu machen und einen unangemessenen Hype zu induzieren. Das Feld brauche eine qualitativ hochwertige und transparente Evidenzbasis – alles andere diene nicht dem Patienten.

Weitere Themen

Topmeldungen

Newsletter

Immer auf dem Laufenden Sie haben Post! Abonnieren Sie unsere FAZ.NET-Newsletter und wir liefern die wichtigsten Nachrichten direkt in Ihre Mailbox. Es ist ein Fehler aufgetreten. Bitte versuchen Sie es erneut.
Vielen Dank für Ihr Interesse an den F.A.Z.-Newslettern. Sie erhalten in wenigen Minuten eine E-Mail, um Ihre Newsletterbestellung zu bestätigen.