https://www.faz.net/aktuell/wissen/computer-mathematik/wie-kann-man-kuenstlicher-intelligenz-common-sense-vermitteln-18344795.html

Künstliche Intelligenz : Gesunder Menschenverstand für Maschinen?

  • -Aktualisiert am

Was passiert, wenn man eine Tasse mit Kaffee umwirft, ist für Menschen offensichtlich – für Computer weniger. Bild: Getty Images/iStockphoto

Beim Heidelberg Laureate Forum diskutieren Preisträger der Mathematik und Informatik Grenzen künstlicher Intelligenz – und was die mit verschüttetem Kaffee zu tun haben.

          3 Min.

          Eine zur Hälfte mit Kaffee gefüllte Tasse neigt sich, neigt sich immer weiter, schon reicht der Milchschaum bis zum Tassenrand. „Stopp“, ruft Alexei Efros, Informatikprofessor an der University of California in Berkeley und einer der weltweit führenden Köpfe der maschinellen Bildverarbeitung. An diesem Nachmittag ist er Regisseur der improvisierten Szene im Garten der Neuen Universität in Heidelberg. „Nun, was passiert als Nächstes?“ Die Tasse befindet sich weiter im bedrohlichen Neigungswinkel. Diese Frage müsse eine Maschine beantworten können, erklärt Efros dem Kreis der umstehenden Doktoranden und Studenten. Für Menschen ist klar: Wenn man die Tasse weiter kippt, landet der Kaffee im Gras. Kaffee ist eine Flüssigkeit, Flüssigkeiten fließen, und ohne Halt fällt alles runter. Das ist Common Sense – gesunder Menschenverstand.

          Für Computer sind derlei Einsichten noch immer schwer. Es ist der große Makel der Erfolgsgeschichte des maschinellen Lernens. Lernalgorithmen haben 2016 den weltbesten Go-Spieler besiegt, sie werden für Spracherkennung und Übersetzung eingesetzt, kürzlich hat „Alpha Fold“ 200 Millionen Proteinstrukturen anhand der Aminosäuren-Abfolge vorausgesagt.

          Maschinelles Lernen und Künstliche Intelligenz (KI), der Oberbegriff des Forschungsgebiets, sind die inoffiziellen Themen des diesjährigen Heidelberg Laureate Forums. Initiiert von der Klaus Tschira Stiftung, ist die Veranstaltung das Pendant zur Nobelpreisträgertagung in Lindau für die Fächer Mathematik und Informatik. Eine Woche lang halten Fields-Medaillisten, Abel- und Turing-Preisträger vor Doktoranden aus aller Welt Vorträge – und diskutieren unter anderem Lösungen für das Common-Sense-Problem.

          Effiziente Mustererkennung

          „Sei vorsichtig mit der Behauptung, Deep Learning könne etwas nicht“, sagt Yann LeCun in einer Podiumsdiskussion des Forums über die Zukunft von Ma­chine Learning. Das habe sich meistens als Irrtum herausgestellt. Der oberste KI-Forscher bei Meta gilt als einer der „Paten“ der Deep-Learning-Revolution, er hat bereits in den Achtzigern daran geforscht, als viele das noch für einen Irrweg hielten – mittlerweile hat er den Turing-Preis bekommen, die höchste Auszeichnung der Informatik. Zentrales Element der Software ist dabei ein künstliches neuronales Netz, inspiriert vom menschlichen Gehirn. Diese neuronalen Netze können effizient mit sehr vielen Daten darauf trainiert werden, Muster in ähnlichen Daten zu erkennen. Gut klappt das meist erst, wenn das neuronale Netz in vielen Schichten vernetzt ist, also „deep“, tief, ist. Heute ist Deep Learning für den Erfolg von Maschinellem Lernen verantwortlich.

          Am Ende der Podiumsdiskussion meldet sich in der ersten Reihe Joseph Sifakis, ebenfalls Turing-Preisträger. Er ist weniger optimistisch. Erst kürzlich habe die Bilderkennung eines Autos den Mond mit einer Ampel verwechselt. Sifakis forscht zu autonomem Fahren – da sind derlei Verwechslungen natürlich gefährlich. Es gebe da ein grundlegendes Problem, sagt er. LeCun auf dem Podium sieht das anders, die Diskussion wird hitzig, und die Moderatorin bittet um Fortsetzung in der Kaffeepause.

          Was unterscheidet eine Tasse von einer Kanne?

          Ein klassischer Ansatz für KI war, Wissen in Form von Aussagen vorzugeben: „Kaffee ist eine Flüssigkeit“ etwa. Der Vorteil ist, dass ein Programmierer verstehen kann, warum die Maschine eine bestimmte Entscheidung trifft, und dass man explizite Anweisungen vorgeben kann. Allerdings gerät man auf diese Weise schnell in Schwierigkeiten: Wie viel Kriterien muss man vorgeben, um eine Tasse von einer Kanne zu unterscheiden?

          Bei neuronalen Netzen hingegen gibt man gar keine Kriterien vor, nur den Input (ein Bild) und die Outputmöglichkeiten (Ampel oder keine Ampel). Man zeigt etwa Hunderttausende Bilder aus dem Straßenverkehr, und wenn das Programm korrekt eine Ampel findet, heißt es: mehr davon. Was es aber intern damit macht, ist intransparent. Für die Möglichkeit, an riesigen Mengen konkreter Daten zu lernen, opfert man Erklärbarkeit und menschgemachte Kriterien.

          Sifakis sieht darin das Problem. Solange man symbolisches Wissen – eine Ampel hängt nicht am Himmel – nicht mit dem konkreten Wissen – die Ähnlichkeit zu Bildern von Ampeln in den Trainingsdaten – verbinden könne, dürfe man diesen Maschinen keine Beteiligung am Autofahren zutrauen. Mit dieser Kritik ist er nicht allein: Der KI-Forscher Gary Marcus etwa plädiert dafür, symbolisch ausgedrückte Regeln mit Deep Learning zu kombinieren. Von dieser Idee hält Yann LeCun nichts, das Symbolische passe nicht in das mathematische Modell von Deep Learning. Die Frage sei doch, inwiefern man überhaupt echtes Verstehen in einem neuronalen Netz implementieren könne. Die Antwort hat er selbst: „Wir wissen, dass es geht“, und deutet auf seinen Kopf. „Wir machen es hier.“

          Lernen per Video

          Ein Beispiel dafür, wie das gehen könnte, liefert die kippende Kaffeetasse. Ein Ma­chine-Learning-Algorithmus könnte mit einem Video dieses Vorgangs trainiert werden: Kurz bevor der Kaffee überläuft, wird das Video angehalten, und die Maschine muss voraussagen, was als Nächstes passiert. Das nächste Bild im Video sagt der Maschine dann, ob sie richtigliegt. Alexei Efros sieht, ähnlich wie LeCun, in diesen Trainingsexperimenten eine Möglichkeit, Maschinen physikalische Prozesse von Grund auf lernen zu lassen. Im Gegensatz zum „beaufsichtigten Training“, bei dem ein Mensch vorher die richtige Lösung angibt und die Bilder beschriftet – Mond, Ampel, Tasse, Kanne –, wäre das dann „selbst beaufsichtigtes Training“.

          Letztendlich ist das eine Fortführung des Deep-Learning-Ansatzes: Lass die Maschine selbst herausfinden, wie man zur Lösung kommt. Efros findet das richtig: „Ich war immer gegen den Standpunkt: Algorithmen sind alles, Daten sind nichts“, sagt er. Solch eine Präferenz komme doch nur daher, dass Algorithmen menschgemacht seien. „Das Gegenteil ist der Fall: Daten sind alles.“

          Weitere Themen

          Digitale Werkzeugkiste

          Netzrätsel : Digitale Werkzeugkiste

          Es gibt so gut wie nichts, was es nicht gibt im Netz der Netze: Geniales, Interessantes, Nützliches und herrlich Überflüssiges. Diesmal: Hilfreiche Werkzeuge für alle digitalen Lebenslagen.

          Topmeldungen

          Corona in China : Xi könnte zum Verlierer der Pandemie werden

          Unter dem Druck der Straße hat Xi Jinping einen Kurswechsel in der Corona-Politik eingeleitet. Es droht eine chaotische Öffnung mit vielen Toten. Noch dazu hat er viele Bürger gegen sich aufgebracht.

          Newsletter

          Immer auf dem Laufenden Sie haben Post! Die wichtigsten Nachrichten direkt in Ihre Mailbox. Sie können bis zu 5 Newsletter gleichzeitig auswählen Es ist ein Fehler aufgetreten. Bitte versuchen Sie es erneut.
          Vielen Dank für Ihr Interesse an den F.A.Z.-Newslettern. Sie erhalten in wenigen Minuten eine E-Mail, um Ihre Newsletterbestellung zu bestätigen.