NVIDIA Cosmos 3: omnimodalni world model za fizički AI

Cosmos 3 je novi NVIDIA-in omnimodalni world model objavljen kao arXiv preprint koji u jednoj mixture-of-transformers arhitekturi istovremeno obrađuje i generira jezik, slike, video, zvuk i akcijske sekvence. Model cilja na embodied i fizički AI te dolazi uz open-source kod, checkpointe, datasete i benchmarke.

NVIDIA je 1. lipnja 2026. objavila arXiv preprint pod nazivom “Cosmos 3: Omnimodal World Models for Physical AI”. Rad predstavlja Cosmos 3, model koji u jednoj objedinjenoj arhitekturi istovremeno obrađuje i generira jezik, sliku, video, zvuk i akcijske sekvence. Cilj je stvoriti temeljni world model za fizički AI — robote i embodied agente koji djeluju u stvarnom svijetu. Na popisu autora navedeno je 294 suradnika.

Što Cosmos 3 zapravo radi?

Cosmos 3 spaja u jedan okvir ono što je dosad bilo razdvojeno: vision-language modele, generatore videa, simulatore svijeta i akcijske modele. Umjesto zasebnih sustava za razumijevanje i generiranje, jedan model prima i proizvodi više modaliteta odjednom. Time pokriva i percepciju (razumijevanje scene) i predviđanje (kako će se scena razvijati nakon neke akcije), što je ključno za upravljanje robotom.

Mixture-of-transformers arhitektura

Temelj sustava je mixture-of-transformers dizajn — arhitektura u kojoj više transformer komponenti dijeli zajednički okvir i obrađuje različite vrste podataka, umjesto jednog monolitnog modela. Takav pristup omogućuje, prema radu, “vrlo fleksibilne ulazno-izlazne konfiguracije”: model može primiti tekst i sliku, a vratiti video ili akcijsku sekvencu, ovisno o zadatku. Pojam omnimodalno znači da svih pet modaliteta — jezik, slika, video, zvuk i akcije — žive unutar istog modela.

Koliko je dobar u odnosu na konkurenciju?

Prema preprintu, Cosmos 3 postiže najbolje rezultate (state-of-the-art) na raznolikom skupu zadataka razumijevanja i generiranja. Autori navode da je u trenutku pisanja rada Artificial Analysis rangirao Cosmos 3 kao najbolji open-source Text-to-Image i Image-to-Video model, dok ga je RoboArena ocijenila najboljim policy modelom — to jest modelom koji odlučuje koje akcije robot poduzima. Te su tvrdnje iz samog rada i odnose se na rang-liste navedene u trenutku objave.

Open-source paket

Uz rad, NVIDIA otvara cijeli paket. Dostupni su kod i model checkpointi, kurirani sintetički dataseti te evaluacijski benchmark. Materijali se objavljuju pod licencom OpenMDW-1.1 Linux Foundationa, repozitorij se nalazi na GitHubu (github.com/nvidia/cosmos), a model hub na Hugging Faceu. Prva verzija preprinta postavljena je 1. lipnja 2026., a revidirana verzija 5. lipnja 2026.

Zašto je to važno

Objavom cjelovitog paketa — kod, checkpointi, podaci i benchmarci — NVIDIA spušta prag za istraživanje fizičkog AI-ja izvan velikih laboratorija. World modeli koji jednako dobro razumiju i generiraju više modaliteta smatraju se jednim od ključnih sastojaka za skalabilnu robotiku i embodied agente, pa će se prave performanse Cosmosa 3 vidjeti kad ga zajednica počne testirati na vlastitom hardveru i zadacima.

Česta pitanja

Što je world model?

World model je AI sustav koji uči internu reprezentaciju kako se svijet ponaša, pa može predviđati i simulirati posljedice akcija. Koristi se za robotiku i embodied agente koji djeluju u fizičkom okruženju.

Je li Cosmos 3 dostupan kao open source?

Da. NVIDIA je objavila kod i checkpointe pod licencom OpenMDW-1.1 Linux Foundationa, zajedno sa sintetičkim datasetima i evaluacijskim benchmarkom, na GitHubu i Hugging Faceu.

arXiv:2606.02800: NVIDIA Cosmos 3 — omnimodalni world model za fizički AI