Die zweite KI-Welle erreicht die Fabrik!
Die Nachrichten der vergangenen Wochen kamen in dichter Folge. Anfang Juni stellte NVIDIA mit Cosmos 3 ein physikorientiertes Weltmodell vor, das künstliche Intelligenz direkt in Robotik-Umgebungen bringen soll. Fast zeitgleich präsentierte Siemens mit dem Intelligence Center X eine neue Industrieplattform, die KI-Agenten und Beschäftigte in der Produktion zusammenführt und industrielle KI vom isolierten Pilotversuch zur skalierbaren Anwendung machen soll.
12. Juni 2026Teilen
Und nur wenige Wochen zuvor hatte Google auf seiner Entwicklerkonferenz I/O mit Gemini Omni ebenfalls ein „World Model" vorgestellt und dafür Investitionen von bis zu 190 Milliarden Euro angekündigt.
Was die Ankündigungen eint, ist die Richtung – KI soll die physische Welt begreifen und in ihr handeln. Große Sprachmodelle können die Produktion beschreiben. Doch wer in der Fabrik tatsächlich eingreifen will, braucht eine KI, die die physische Welt versteht. Genau hier setzen Weltmodelle an und verschieben gerade die Gewichte in der industriellen KI. Innerhalb weniger Wochen ist damit ein Begriff in den Mittelpunkt der KI-Debatte gerückt, der lange vor allem Fachleute beschäftigt hat: das Weltmodell. Dahinter steht eine Frage, an der Investitionen in Milliardenhöhe hängen und die über die Zukunft jeder automatisierten Fabrik entscheidet.
Die Welt besteht aus mehr als Text
In den Werkshallen entscheidet sich derzeit, welche Art von künstlicher Intelligenz wirklich trägt. Die großen Sprachmodelle der vergangenen Jahre – ChatGPT, Gemini, Claude – haben beeindruckt, weil sie über fast jedes Thema reden können. Sie ziehen ihr Wissen aus riesigen Textmengen und geben es in flüssiger Sprache zurück. In der Produktion aber, wo ein hundertstel Millimeter über Ausschuss entscheidet und ein einziger Fehlgriff eine Linie lahmlegt, stößt dieses Können an seine Grenzen. Ein Modell, das die Welt nur aus Texten kennt, versteht sie nicht wirklich. An dieser Stelle treten Weltmodelle auf den Plan. Und sie verändern die Spielregeln.
Beredt, aber blind für die Physik
Ein großes Sprachmodell kann eine Montagelinie so genau beschreiben, als hätte es jahrelang danebengestanden. Es erkennt Fehlerbilder, schlägt Verbesserungen vor, beantwortet Rückfragen. Sobald aber die Wirklichkeit dazwischenfunkt, wenn ein Werkstück kippt, ein Greifer abrutscht oder eine Anlage in einer Konfiguration anläuft, die niemand vorgesehen hat, endet die Souveränität. Dem Modell fehlt ein inneres Bild davon, wie sich Dinge im Raum verhalten. Es hat über Physik gelesen, ohne sie je erlebt zu haben.
„Sehr begrenztes Verständnis von Logik“
Yann LeCun, Turing-Preisträger und langjähriger KI-Chefwissenschaftler von Meta, gehört zu den schärfsten Kritikern der LLM-Euphorie. Sprachmodelle besäßen ein „sehr begrenztes Verständnis von Logik“, verstünden „die physische Welt nicht, haben kein dauerhaftes Gedächtnis, können nicht rational denken und nicht hierarchisch planen“. Aus seiner Sicht ist das keine Frage der Reifezeit, sondern eine Grenze, die in der Bauweise dieser Systeme angelegt ist. Wie ernst es ihm damit ist, zeigt eine Personalie, die in der Branche für Aufsehen sorgte: Ende 2025 verließ LeCun Meta nach zwölf Jahren und gründete in Paris das Start-up AMI Labs, das ausschließlich auf Weltmodelle setzt. Im März 2026 sammelte das Unternehmen rund eine Milliarde Dollar ein – die größte Seed-Finanzierung, die je ein europäisches Unternehmen erhalten hat.
Greg Brockman, Mitgründer von OpenAI, widerspricht jedoch entschieden: Der Weg zur allgemeinen KI sei in Sicht, und die Sprachmodelle führten dorthin. Wer als Unternehmen heute über seine KI-Architektur entscheidet, sortiert sich damit, ob gewollt oder nicht, in eines dieser beiden Lager ein.
Ein Modell mit innerem Abbild der Welt
Weltmodelle sind keine größeren Sprachmodelle, sondern ein anderer Ansatz. Sie berechnen nicht in erster Linie, welches Wort als Nächstes wahrscheinlich ist, sondern bauen intern ein Abbild ihrer Umgebung auf: Objekte, die fallen, Kräfte, die wirken, Ursachen, die Folgen nach sich ziehen. Auf dieser Grundlage simulieren sie, was als Nächstes geschieht, noch bevor es tatsächlich passiert. Statt das Geschehen zu beschreiben, spielen sie es vorab durch.
Erste belastbare Zahlen liegen vor. In der Robotik zeigen aktuelle Studien einen Leistungssprung von bis zu 30 Prozent, wenn Systeme über solche internen Weltmodell-Darstellungen lernen statt direkt aus Rohdaten. Das ist mehr als ein kosmetischer Zugewinn; es verändert die Grundlage, auf der solche Systeme arbeiten.
Der Unterschied lässt sich an einem einfachen Vorgang festmachen: Fällt ein Bauteil auf das Förderband, beschreibt ein Sprachmodell hinterher, was geschehen ist. Ein Weltmodell rechnet den Sturz voraus, erkennt die Abweichung früh und korrigiert den Greifer, bevor überhaupt ein Fehler entsteht.
Die Forschung sucht eine klare Definition
Lange blieb unscharf, was ein Weltmodell überhaupt ausmacht – jede Forschungsgruppe legte den Begriff anders aus. Im April 2026 hat ein internationales Team mit dem quelloffenen Framework OpenWorldLib einen ersten verbindlichen Rahmen vorgeschlagen. Demnach nimmt ein Weltmodell seine Umgebung wahr, greift in sie ein und behält ihre Zustände im Gedächtnis. Text-zu-Video-Systeme wie Sora fallen ausdrücklich heraus: Sie erzeugen eindrucksvolle Bilder, aber ohne Rückkopplung mit der realen Welt. Die vielleicht wichtigste Beobachtung der Arbeit lautet, dass schon heutige Sprachmodelle im Prinzip die Voraussetzungen mitbringen, sich in diese Richtung weiterzuentwickeln. Bis dahin ist es allerdings noch ein weiter Weg.
Was die jüngste HANNOVER MESSE gezeigt hat
Wie schnell sich das Feld verschiebt, war auf der HANNOVER MESSE 2026 zu beobachten. Erstmals stand dort „Physical AI" als eigenes Leitthema im Mittelpunkt: Intelligenz, die nicht auf Bildschirmen arbeitet, sondern in Maschinen, Anlagen und Robotern. Drei Beispiele blieben besonders im Gedächtnis.
Agile Robots zeigte mit Agile ONE einen humanoiden Roboter, der seine Umgebung selbst erfasst, eigenständig entscheidet und in komplexen industriellen Situationen in Echtzeit handelt, ohne festes Ablaufprogramm. SEW-EURODRIVE stellte einen Konfigurations-Agenten vor, mit dem sich Maschinen und Roboter im Dialog in Betrieb nehmen lassen. Bemerkenswert daran: Das System kommt bewusst ohne klassische LLM-Architektur aus und versteht sich als eigenständige, europäische Alternative. Siemens schließlich führte an einer flexiblen Schuhproduktion vor, worum es im Kern geht – um eine KI, die nicht nur Empfehlungen ausspricht, sondern selbst eingreift.
Foundation Models für den sogenannten Cross-Embodiment Transfer
Parallel reift in der Forschung ein Ansatz, der die Integration von Robotern grundlegend vereinfachen könnte: Foundation Models für den sogenannten Cross-Embodiment Transfer. Ein einziges Modell, das mit den Daten unterschiedlichster Robotertypen trainiert wurde, lässt sich auf Maschinen anwenden, die es vorher nie gesehen hat. Statt für jede Maschine bei null zu beginnen, überträgt es vorhandenes Wissen auf neue Hardware.
Sprachmodelle und Weltmodelle sind keine Konkurrenten
Die Humanoid Robot Study 2026 von Tobias Bock (Nexery) zieht eine nüchterne Bilanz: Die Technologie verlässt das Labor, erste industrielle Anwendungen sind Realität. Für den breiten Einsatz fehlt es aber weiterhin an robuster Autonomie und an einer Integration, die sich skalieren lässt. Zugleich zieht China das Tempo deutlich an, und Europa muss um den Anschluss kämpfen. Für die Praxis lassen sich daraus drei Punkte ableiten: Erstens kommt es auf die richtige Architektur für die jeweilige Aufgabe an. Sprachmodelle und Weltmodelle sind keine Konkurrenten, sondern ergänzen einander: Sprache eignet sich für die Verständigung mit dem Menschen, ein inneres Weltmodell für den Eingriff in physische Prozesse. Wer beides verwechselt, setzt das falsche Werkzeug ein.
Zweitens entscheidet die Fähigkeit zur vorausschauenden Planung über die Zuverlässigkeit im Betrieb. Ob ein System mögliche Folgen abschätzt oder nur aus der Vergangenheit hochrechnet, ist kein akademisches Detail. Daran zeigt sich, ob eine Lösung allein im Pilotprojekt funktioniert oder auch im Dreischichtbetrieb standhält.
Drittens wird die Datenstrategie zum Wettbewerbsfaktor. Weltmodelle lernen nicht aus Texten, sondern aus physikalischen Zuständen, Sensordaten und realen Abläufen. Wer seine Produktions- und Sensordaten heute strukturiert und nutzbar macht, schafft die Grundlage, auf der die nächste KI-Generation überhaupt erst aufsetzen kann.
Weniger eine ferne Vision als eine Frage der Vorbereitung
Die Sprachmodelle haben gezeigt, wie gut Maschinen mit Sprache umgehen können. Die nächste Stufe ist anspruchsvoller: Maschinen, die ihre Umgebung verstehen und in ihr handeln. Für die Industrie ist das weniger eine ferne Vision als eine Frage der Vorbereitung. Und die beginnt bei den eigenen Daten und bei der Wahl der passenden Technologie.
Aussteller zum Thema
Sprecher zum Thema
Events zum Thema
Interesse an News zu Ausstellern, Top-Angeboten und den Trends der Branche?
Browser Hinweis
Ihr Webbrowser ist veraltet. Aktualisieren Sie Ihren Browser für mehr Sicherheit, Geschwindigkeit und eine optimale Darstellung dieser Seite.
Browser aktualisieren