arXiv:2606.02800: NVIDIA Cosmos 3 — omnimodalni world model za fizički AI
Cosmos 3 je novi NVIDIA-in omnimodalni world model objavljen kao arXiv preprint koji u jednoj mixture-of-transformers arhitekturi istovremeno obrađuje i generira jezik, slike, video, zvuk i akcijske sekvence. Model cilja na embodied i fizički AI te dolazi uz open-source kod, checkpointe, datasete i benchmarke.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
NVIDIA je 1. lipnja 2026. objavila arXiv preprint pod nazivom “Cosmos 3: Omnimodal World Models for Physical AI”. Rad predstavlja Cosmos 3, model koji u jednoj objedinjenoj arhitekturi istovremeno obrađuje i generira jezik, sliku, video, zvuk i akcijske sekvence. Cilj je stvoriti temeljni world model za fizički AI — robote i embodied agente koji djeluju u stvarnom svijetu. Na popisu autora navedeno je 294 suradnika.
Što Cosmos 3 zapravo radi?
Cosmos 3 spaja u jedan okvir ono što je dosad bilo razdvojeno: vision-language modele, generatore videa, simulatore svijeta i akcijske modele. Umjesto zasebnih sustava za razumijevanje i generiranje, jedan model prima i proizvodi više modaliteta odjednom. Time pokriva i percepciju (razumijevanje scene) i predviđanje (kako će se scena razvijati nakon neke akcije), što je ključno za upravljanje robotom.
Mixture-of-transformers arhitektura
Temelj sustava je mixture-of-transformers dizajn — arhitektura u kojoj više transformer komponenti dijeli zajednički okvir i obrađuje različite vrste podataka, umjesto jednog monolitnog modela. Takav pristup omogućuje, prema radu, “vrlo fleksibilne ulazno-izlazne konfiguracije”: model može primiti tekst i sliku, a vratiti video ili akcijsku sekvencu, ovisno o zadatku. Pojam omnimodalno znači da svih pet modaliteta — jezik, slika, video, zvuk i akcije — žive unutar istog modela.
Koliko je dobar u odnosu na konkurenciju?
Prema preprintu, Cosmos 3 postiže najbolje rezultate (state-of-the-art) na raznolikom skupu zadataka razumijevanja i generiranja. Autori navode da je u trenutku pisanja rada Artificial Analysis rangirao Cosmos 3 kao najbolji open-source Text-to-Image i Image-to-Video model, dok ga je RoboArena ocijenila najboljim policy modelom — to jest modelom koji odlučuje koje akcije robot poduzima. Te su tvrdnje iz samog rada i odnose se na rang-liste navedene u trenutku objave.
Open-source paket
Uz rad, NVIDIA otvara cijeli paket. Dostupni su kod i model checkpointi, kurirani sintetički dataseti te evaluacijski benchmark. Materijali se objavljuju pod licencom OpenMDW-1.1 Linux Foundationa, repozitorij se nalazi na GitHubu (github.com/nvidia/cosmos), a model hub na Hugging Faceu. Prva verzija preprinta postavljena je 1. lipnja 2026., a revidirana verzija 5. lipnja 2026.
Zašto je to važno
Objavom cjelovitog paketa — kod, checkpointi, podaci i benchmarci — NVIDIA spušta prag za istraživanje fizičkog AI-ja izvan velikih laboratorija. World modeli koji jednako dobro razumiju i generiraju više modaliteta smatraju se jednim od ključnih sastojaka za skalabilnu robotiku i embodied agente, pa će se prave performanse Cosmosa 3 vidjeti kad ga zajednica počne testirati na vlastitom hardveru i zadacima.
Česta pitanja
- Što je world model?
- World model je AI sustav koji uči internu reprezentaciju kako se svijet ponaša, pa može predviđati i simulirati posljedice akcija. Koristi se za robotiku i embodied agente koji djeluju u fizičkom okruženju.
- Je li Cosmos 3 dostupan kao open source?
- Da. NVIDIA je objavila kod i checkpointe pod licencom OpenMDW-1.1 Linux Foundationa, zajedno sa sintetičkim datasetima i evaluacijskim benchmarkom, na GitHubu i Hugging Faceu.
Povezane vijesti
arXiv:2606.19808: SEVRA selektivnom verifikacijom štedi do 91 posto tokena u rasuđivanju modela
arXiv:2606.20333: SoftSkill komprimira skill-dokumente u 32 latentna tokena i diže LiveMath za 42,1 boda
arXiv:2606.19327: Rubric-conditioned self-distillation nadmašuje GRPO u treniranju reasoning modela