Roboter müssen in die Vorschule
Elvis Nava entwickelt daher Lernalgorithmen für Roboter, die genau das können sollen: Informationen aus verschiedenen Quellen miteinander verknüpfen. «Wenn ich dem Roboterarm sage ‹reich mir den Apfel am Tisch›, dann muss er das Wort Apfel mit den visuellen Eigenschaften eines Apfels verknüpfen. Zudem muss er den Apfel am Tisch erkennen und wissen, wie man nach ihm greift.»
Doch wie bringt der Forscher dem Roboterarm all das bei? Etwas vereinfacht gesagt, schickt Nava ihn in ein zweistufiges Trainingslager. In einer Art Vorschule lernt der Roboter zunächst allgemeine Fähigkeiten wie Sprach- und Bilderkennung sowie einfache Handbewegungen.
Für diese Fähigkeiten gibt es bereits öffentlich zugängliche Modelle, die anhand von riesigen Text-, Bild-, oder Videodatensätzen trainiert wurden. Dabei füttern Forschende zum Beispiel einen Bilderkennungsalgorithmus mit tausenden Bildern, die das Label «Hund» oder «Katze» tragen. Dieser lernt dann selbst, welche Eigenschaften – in diesem Fall Pixelstrukturen – Hunde- oder Katzenbilder ausmachen.
Ein neuer Lernalgorithmus für Roboter
Navas Aufgabe besteht nun darin, die besten verfügbaren Modelle in einem neuen Lernalgorithmus zu kombinieren. Dieser muss unterschiedliche Daten wie Bilder, Texte oder räumliche Angaben in eine einheitliche Befehlssprache für den Roboterarm übersetzen. «Das Wort ‹Bier› und Bilder mit dem Label ‹Bier› werden im Modell vom selben Vektor repräsentiert», erläutert der ETH-Forscher. Dadurch weiss der Roboter, nach was er greifen soll, wenn man ihm die Aufgabe «Schenk mir ein Bier ein» gibt.
Forschende, die sich intensiver mit künstlicher Intelligenz beschäftigten, wissen schon länger, dass es vielversprechend wäre, unterschiedliche Datenquellen und Modelle zu integrieren. Die entsprechenden Modelle sind aber erst seit kurzem vorhanden und öffentlich zugänglich. Zudem gibt es mittlerweile genug Rechenleistung, um sie auch gemeinsam zum Laufen zu bringen.
Wenn Nava über diese Dinge spricht, wirken sie einfach und intuitiv. Doch das täuscht: «Man muss nicht nur die neusten Modelle sehr gut kennen. Manchmal ist es mehr eine Kunst als eine Wissenschaft, sie gemeinsam zum Laufen zu bringen», sagt er. Es sind solche kniffligen Probleme, die Nava besonders reizen. Stundenlang kann er sich an ihnen abarbeiten und immer wieder neue Lösungen ausprobieren.