KI muss lernen wie ein Kind
Neue KI-Systeme verblüffen, doch Menschen reichen sie nicht das Wasser. Benjamin Grewe plädiert deshalb dafür, dass intelligente Maschinen von morgen so lernen wie kleine Kinder.
Der Traum eine menschähnliche, intelligente Maschine zu schaffen, zieht sich durch die Menschheitsgeschichte. Aus San Francisco hören wir seit kurzem von einem neuen Sprachsystem namens GPT3. Es soll nach Angaben seiner Entwickler in der Lage sein, ohne für bestimmte Aufgaben trainiert worden zu sein, generelle Fragen zu beantworten, Texte zu korrigieren, zu vervollständigen oder gleich selbst zu schreiben. Letzteres mache GPT3 so gut, dass die generierten Zeilen kaum mehr von menschlichen Texten zu unterscheiden seien. Was ist davon zu halten?
GPT3 kennt (fast) das ganze Internet
Trainiert wird GPT3 mit einem Textdatensatz aus 500 Milliarden Zeichenfolgen, der auf dem gesamten Internet (gefiltert), Wikipedia und mehreren digitalisierten Büchersammlungen basiert. Eine ungeheure Wissensfülle, bei der der Mensch nicht mithalten kann. Doch was tut GPT3 genau damit? Beim sogenannten ‘self-supervised’ Training lernt das Sprachnetzwerk einfach anhand eines vorgegebenen Textabschnitts, jeweils das nächste Wort zu ergänzen. Danach wiederholt sich der Algorithmus und kann vorausberechnen, welches Wort dann als nächstes am wahrscheinlichsten ist. So schreibt es iterativ einen vollständigen Satz bzw. Text.
Generell gilt bei modernen KI-Sprachsystemen: Je grösser das Netzwerk und je mehr Verbindungen zwischen den künstlichen Neuronen, desto besser lernen sie. GPT3 besteht aus beachtlichen 175 Milliarden solcher Verbindungsparameter. Zum Vergleich: Googles berühmtes BERT Netzwerk besteht nur aus 255 Millionen, doch das menschliche Gehirn hat 1014 synaptische Verbindungen. Das heisst es übertrifft GPT3 um einen Faktor von bis zu 10'000!
Für mich verdeutlichen vor allem die zahlreichen Mängel, welche GPT3 hat, sinnbildlich das Problem moderner ‘high-performance’ künstlicher neuronaler Netze. So ist grammatikalisch praktisch jeder generierte Text einwandfrei. Der Inhalt ist sogar über mehrere Sätze hinweg logisch konsistent. Längere Texte ergeben allerdings inhaltlich oft nur wenig Sinn. Es reicht eben nicht, nur das nächste Wort vorherzusagen. Um wirklich intelligent zu sein, müsste eine Maschine Aufgaben und Ziele eines Textes inhaltlich und konzeptionell verstehen. Mitnichten ist das GPT3 Sprachsystem dazu fähig, alle generellen Fragen zu beantworten. Eine menschenartige Intelligenz wurde mit also GPT3 nicht entwickelt.
Menschen lernen mehr als nur statistische Muster
Das Beispiel von GPT3 zeigt meiner Meinung nach zudem ein weiteres generelles Problem, in dem die heutige KI-Forschung steckt. Die aktuellen intelligenten Systeme und Algorithmen sind unglaublich gut darin, grosse Datenmengen zu verarbeiten, statistische Muster zu erkennen und diese allenfalls selber zu reproduzieren. Das Problem sind aber die hochspezialisierten Trainingsalgorithmen. Die Bedeutung eines Wortes nur durch Text zu lernen und dieses grammatikalisch korrekt zu verwenden, genügt nicht.
Nehmen wir das Beispiel «Hund» – selbst wenn wir einer Maschine beibringen, dass das Wort statistisch in Texten oft zusammen mit «Dackel», «Bernhardiner» oder «Mops» auftaucht, schwingt für einen Menschen sehr viel mehr «Bedeutungen» in diesem Wort mit. Er bildet zahlreiche Konnotationen, die sich aus einer Vielzahl von realen, physischen Erfahrungen und Erinnerungen zusammensetzen. Deshalb kann das «Sprachsystem Mensch» zwischen den Zeilen lesen, die Intention des Schreibenden ableiten oder einen Text interpretieren.
Wie lernen Menschen und was lernen wir daraus?
Der Schweizer Entwicklungspsychologe Jean Piaget hat die wesentlichen Grundzüge des menschlichen Lernens während der Kindesentwicklung beschrieben. Kinder lernen, indem sie auf ihre Umwelt reagieren, mit ihr interagieren und diese beobachten. Dabei durchlaufen sie kognitiv verschiedene, aufeinander aufbauende Stadien. Wichtig dabei ist, dass sich die sensomotorische Intelligenz, vom Reflexmechanismus zur zielgerichteten Aktion, als erstes entfaltet. Erst viel später erwirbt ein Kind dann die Fähigkeit zu sprechen, Sachverhalte logisch aufeinander zu beziehen oder gar abstrakte, hypothetische Gedanken zu formulieren wie etwa beim Nachspielen erlebter Situationen.
«Kinder können – obwohl sie wahrscheinlich quantitativ weniger Daten verarbeiten – trotzdem mehr als jede KI.»Benjamin Grewe
Ich bin davon überzeugt, dass – wollen wir entscheidende Fortschritte hinsichtlich menschenähnlicher Intelligenz im Machine Learning machen – wir uns viel mehr an der Art orientieren müssen, wie z.B. Kinder lernen und sich entwickeln. Eine zentrale Rolle spielt dabei die physische Interaktion mit der Umwelt. Konkret könnte man sich folgende Herangehensweisen vorstellen: Wir bauen oder simulieren interaktive, am Menschen orientierte Roboter, die eine Vielzahl von sensorischen Erfahrungen ins maschinelle Lernen integrieren und selbstständig in einer realen oder virtuellen Umgebung lernen.
Dabei werden dann Informationen aus dem Bewegungsapparat sowie der visuellen, auditorischen und haptischen Sensorik so vernetzt, dass konsistente Schemata entstehen. Sind einfache Schemata erst einmal gelernt, kann der Algorithmus langsam anfangen diese mit einem abstrakten Sprachsystem zu ergänzen. Dadurch kann das gelernte weiter abstrahiert, angepasst und mit anderen, abstrakten Konzepten verbunden werden.
Kurz: Kinder lernen fundamental anders als Maschinen heute und können – obwohl sie quantitativ weniger Daten verarbeiten – trotzdem mehr als jede KI. Gemäss den Entwicklern stösst GPT3 mit der Datenmenge wohl bereits an die Grenzen des Machbaren. Das zeigt auch, dass hochspezialisierte Lernalgorithmen mit noch mehr Daten das maschinelle Lernen nicht mehr entscheidend verbessern werden. Diesen Blogbeitrag hat übrigens ein Mensch geschrieben und es wird noch sehr lange dauern, bis das eine Maschine auch so hinbekommt.
Dieser Text erscheint auch als Meinungsbeitrag in der externe Seite NZZ am Sonntag.