Mehr Abwechslung beim Training

Auch der GPU-Experte NVIDIA stellte dieses Jahr mit GR00T N1 ein offenes Foundation Model für humanoide Roboter vor, dessen Architektur als Dual‑System einerseits Vision‑Language (für die Wahrnehmung und das Sprachverständnis), andererseits einen „Diffusion Transformer“ zur Generierung flüssiger Motoraktionen in Echtzeit umfasst. Die Trainings für GR00T N1 können so vielfältig gestaltet werden wie die eines Spitzensportlers und neben den üblichen realen Roboter‑Trajektorien auch anschauliche Videos von Menschen und synthetische Daten enthalten. Laut NVIDIA soll GR00T N1 in Simulationen und bei realen Aufgaben eine bessere Leistung als bisherige Modelle zeigen.

Ein wenig Gras ist für diesen Roboter kein Problem

Eine stetige Optimierung dank multimodaler KI gibt es vor allem hinsichtlich der Bewegungsmuster humanoider Roboter, die für den industriellen Einsatz gedacht sind. So gab vor wenigen Wochen in Shanghai die Kepler Robotics Co., Ltd. den erfolgreichen Abschluss einer umfassenden Verbesserung der Gangart seines humanoiden Roboters K2 „Bumblebee“ bekannt und veröffentlichte Chinas erstes Demonstrationsvideo einer „hybriden, störungsresistenten“ Gangart. K2 „Bumblebee“ bewegt sich nun sicher über verschiedene komplexe Untergründe – darunter Ziegelsteine, Kunststoffoberflächen und Gras – und behält auch bei Stößen von außen einen stabilen Gang bei, was die Fähigkeit des Roboters dokumentiert, das Gleichgewicht zu halten und sich an reale Umgebungen anzupassen. Zudem stellte Kepler eine Demonstration seiner VLA+-Trainingsplattform vor und zeigte, wie K2 „Bumblebee“ ein mehrschichtiges VLA+-Modell anwendet, um natürliche Sprachbefehle zu interpretieren und eine Vielzahl von Aufgaben auszuführen. Diese doppelte Verbesserung in Bezug auf Mobilität und Kognition soll K2 „Bumblebee“ für den zukünftigen Einsatz in industriellen Anwendungen, Dienstleistungsszenarien und einer wachsenden Zahl von realen Einsatzbereichen positionieren.

Roboter machen sich fit für Königsdisziplin Kundeninteraktion

Vor allem China plant, humanoide Systeme verstärkt in Retail, Logistik und Service einzusetzen. In diesem Kontext spielen VLA-Modelle eine große Rolle, weil sie für Aufgaben geeignet sind, die nicht exakt vorprogrammiert werden können, dazu gehören nicht nur gemischtes Produkthandling oder Reinigungsaufgaben, sondern auch die Königsdisziplin Kundeninteraktion. Doch trotz der großen Fortschritte gilt es, weitere Hürden zu meistern. Denn bislang sehen wir die beeindruckendsten Leistungen der VLA-Modelle in Simulationen oder weitgehend kontrollierten Umgebungen. Aber auch wenn in hochkomplexen Fabriken und erst recht in chaotischen Haushalten die Herausforderungen groß sind, könnte 2025 das Jahr sein, in dem VLA‑Modelle in der Praxis richtig sichtbar werden – nicht nur in Forschungslabors, sondern bei Testeinsätzen in der Fertigung, in Lagerhallen, Service‑Bereichen und auch Haushalten. Unternehmen, die robuste Lösungen bieten, die zuverlässig und bezahlbar zugleich sind, werden sich durchsetzen. Und wenn Kosten und Installations-Komplexität weiter sinken, werden auch die seit den 50er-Jahren des letzten Jahrhunderts immer wieder beschworenen Service-Roboter und Assistenzroboter in privaten Haushalten endlich Realität.

v-cloak>