arXiv:2606.02800: NVIDIA Cosmos 3 — omnimodales Weltmodell für physische KI
Cosmos 3 ist NVIDIAs neues omnimodales Weltmodell, veröffentlicht als arXiv-Preprint, das in einer einzigen Mixture-of-Transformers-Architektur gleichzeitig Sprache, Bilder, Video, Audio und Aktionssequenzen verarbeitet und erzeugt. Das Modell zielt auf verkörperte und physische KI und kommt mit Open-Source-Code, Checkpoints, Datensätzen und Benchmarks.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Am 1. Juni 2026 veröffentlichte NVIDIA ein arXiv-Preprint mit dem Titel “Cosmos 3: Omnimodal World Models for Physical AI”. Die Arbeit stellt Cosmos 3 vor, ein Modell, das in einer einzigen vereinheitlichten Architektur gleichzeitig Sprache, Bild, Video, Audio und Aktionssequenzen verarbeitet und erzeugt. Ziel ist es, ein grundlegendes Weltmodell für physische KI zu schaffen — Roboter und verkörperte Agenten, die in der realen Welt handeln. Die Autorenliste nennt 294 Mitwirkende.
Was macht Cosmos 3 eigentlich?
Cosmos 3 vereint in einem Rahmen, was bislang getrennt war: Vision-Language-Modelle, Videogeneratoren, Weltsimulatoren und Aktionsmodelle. Statt getrennter Systeme für Verständnis und Generierung nimmt ein einziges Modell mehrere Modalitäten zugleich auf und erzeugt sie. Damit deckt es sowohl Wahrnehmung (Verständnis einer Szene) als auch Vorhersage (wie sich eine Szene nach einer Aktion entwickelt) ab, was für die Steuerung eines Roboters entscheidend ist.
Mixture-of-Transformers-Architektur
Grundlage des Systems ist ein Mixture-of-Transformers-Design — eine Architektur, in der mehrere Transformer-Komponenten einen gemeinsamen Rahmen teilen und verschiedene Datentypen verarbeiten, statt eines einzelnen monolithischen Modells. Dieser Ansatz ermöglicht laut der Arbeit “hochflexible Eingabe-Ausgabe-Konfigurationen”: Das Modell kann Text und ein Bild aufnehmen und je nach Aufgabe Video oder eine Aktionssequenz zurückgeben. Der Begriff omnimodal bedeutet, dass alle fünf Modalitäten — Sprache, Bild, Video, Audio und Aktionen — innerhalb desselben Modells leben.
Wie gut ist es im Vergleich zur Konkurrenz?
Laut Preprint erreicht Cosmos 3 die besten Ergebnisse (State of the Art) bei einer vielfältigen Reihe von Verständnis- und Generierungsaufgaben. Die Autoren geben an, dass Artificial Analysis zum Zeitpunkt der Abfassung Cosmos 3 als bestes Open-Source-Text-to-Image- und Image-to-Video-Modell einstufte, während RoboArena es als bestes Policy-Modell bewertete — also als das Modell, das entscheidet, welche Aktionen ein Roboter ausführt. Diese Angaben stammen aus der Arbeit selbst und beziehen sich auf die zum Zeitpunkt der Veröffentlichung genannten Ranglisten.
Open-Source-Paket
Neben der Arbeit öffnet NVIDIA das gesamte Paket. Code und Modell-Checkpoints, kuratierte synthetische Datensätze sowie ein Evaluierungs-Benchmark sind verfügbar. Die Materialien werden unter der OpenMDW-1.1-Lizenz der Linux Foundation veröffentlicht, das Repository liegt auf GitHub (github.com/nvidia/cosmos) und der Model-Hub auf Hugging Face. Die erste Version des Preprints wurde am 1. Juni 2026 gepostet, eine überarbeitete Version am 5. Juni 2026.
Warum das wichtig ist
Mit der Veröffentlichung des kompletten Pakets — Code, Checkpoints, Daten und Benchmarks — senkt NVIDIA die Hürde für die Erforschung physischer KI über große Labore hinaus. Weltmodelle, die mehrere Modalitäten gleichermaßen gut verstehen und erzeugen, gelten als eine der Schlüsselkomponenten für skalierbare Robotik und verkörperte Agenten, sodass sich die wahre Leistung von Cosmos 3 zeigen wird, sobald die Community es auf eigener Hardware und mit eigenen Aufgaben testet.
Häufig gestellte Fragen
- Was ist ein Weltmodell?
- Ein Weltmodell ist ein KI-System, das eine interne Repräsentation davon lernt, wie sich die Welt verhält, und so die Folgen von Aktionen vorhersagen und simulieren kann. Es wird für Robotik und verkörperte Agenten eingesetzt, die in einer physischen Umgebung handeln.
- Ist Cosmos 3 als Open Source verfügbar?
- Ja. NVIDIA hat den Code und die Checkpoints unter der OpenMDW-1.1-Lizenz der Linux Foundation veröffentlicht, zusammen mit synthetischen Datensätzen und einem Evaluierungs-Benchmark, auf GitHub und Hugging Face.
Verwandte Nachrichten
arXiv:2606.19808: SEVRA spart durch selektive Verifikation bis zu 91 Prozent der Tokens beim Modell-Reasoning
arXiv:2606.20333: SoftSkill komprimiert Skill-Dokumente in 32 latente Tokens und steigert LiveMath um 42,1 Punkte
arXiv:2606.19327: Rubrik-konditionierte Selbstdestillation übertrifft GRPO beim Reasoning-Training