arXiv:2604.22748: Survey 42 autora uvodi 'levels × laws' taksonomiju za world modele u AI agentima — sinteza 400+ radova
Zašto je bitno
Survey od 42 autora pod naslovom 'Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond' organizira područje kroz dvodimenzionalnu taksonomiju — tri razine sposobnosti modela (Predictor, Simulator, Evolver) i četiri domene zakona (fizička, digitalna, socijalna, znanstvena). Sinteza pokriva preko 400 referenci i više od 100 reprezentativnih sustava.
Veliki survey objavljen na arXiv pod oznakom 2604.22748 pokušava unijeti red u jedno od najzanimljivijih područja današnjeg AI istraživanja — kako AI agenti modeliraju svijet u kojem djeluju. Rad pod naslovom “Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond” potpisuje 42 autora, među kojima su Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, te poznata imena poput Ziwei Liu, Philip Torr i Jiaya Jia.
Što je problem koji autori rješavaju?
Zadnjih godina dramatično se mijenja narav AI sustava. Iz čistih generatora teksta prelaze u sustave koji moraju ostvariti ciljeve kroz interakciju s okolinom. Takvi sustavi ne mogu funkcionirati bez nekog modela svijeta — bilo da predviđaju kako će se mijenjati piksel u videu, što će se dogoditi nakon klika u sučelju, ili kako će drugi agent reagirati na poruku.
Problem je što su istraživačke zajednice koje rade na ovim pitanjima do sada uglavnom bile izolirane. Model-based reinforcement learning, generativni video modeli, web i GUI agenti, multi-agent socijalne simulacije i AI-driven znanstveno otkrivanje govore o sličnim stvarima različitim rječnicima. Survey upravo to pokušava ispraviti.
Kakvo je rješenje?
Autori predlažu “levels × laws” okvir, dvodimenzionalnu taksonomiju koja organizira sva postojeća rješenja po dvije osi. Prva os su razine sposobnosti world modela:
- L1 Predictor — model predviđa jedan korak lokalne tranzicije, primjerice sljedeći frame videa ili sljedeće stanje ekrana.
- L2 Simulator — model izvodi višekoračne rolloute uvjetovane akcijama, čime omogućuje agentu da unaprijed simulira posljedice odluka.
- L3 Evolver — model autonomno revidira sam sebe tijekom interakcije, ažurirajući vlastite pretpostavke o svijetu.
Druga os su domene zakona koji guvernuju ponašanje sustava: fizička (mehanika, geometrija, optika), digitalna (pravila operativnih sustava, web protokoli, GUI semantika), socijalna (norme, jezične konvencije, interakcijski protokoli) i znanstvena (uzročnost, hipoteza-eksperiment ciklus, statistička inferencija).
Konkretni rezultati sinteze
Survey pokriva više od 400 referenci i analizira preko 100 reprezentativnih sustava. Autori klasificiraju metode, identificiraju karakteristične načine na koje sustavi otkazuju i kritički ocjenjuju trenutne evaluacijske prakse.
Rad nije samo deskriptivan. Donosi konkretne preporuke: decision-centric evaluacijske principe (model svijeta treba ocijeniti po kvaliteti odluka koje omogućuje, ne samo po točnosti predikcije), minimalan reproducibilan evaluacijski paket koji različite zajednice mogu koristiti za usporedbu, te arhitekturalne smjernice za buduće sustave.
Zašto je ovo važno?
Praktična vrijednost ovakvog okvira leži u tome što istraživačima i inženjerima daje zajednički jezik. Tim koji radi na video-generativnom modelu i tim koji razvija GUI agenta sada mogu opisati svoje sustave kroz iste dimenzije i razumno ih uspoređivati.
Za industriju je relevantna i sekcija o failure modes — autori identificiraju tipične načine na koje world modeli zataje, što pomaže pri planiranju sigurnosnih provjera prije produkcijskog deploya. Posebno je zanimljiv prijelaz između L2 i L3 razine, gdje sustav prestaje biti pasivni alat i počinje sam mijenjati svoje pretpostavke. To otvara pitanja governance-a koja autori također obrađuju.
Što slijedi?
Survey nije kraj priče nego početak — autori eksplicitno pozivaju zajednicu da prošire taksonomiju, dodaju nove domene (npr. biološku ili ekonomsku) i razviju zajedničke benchmarke za svaku kombinaciju razine i domene. Ako se okvir održi, mogao bi postati standardna referenca slično kako je to bila Goodfellowova klasifikacija generativnih modela prije osam godina.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
arXiv:2604.21910: agentic AI automatizira znanstveni workflow s 83 % točnosti, 92 % manje data transfera i $0.001 po upitu
arXiv:2604.22452: Superminds Test pokazuje da kolektivna inteligencija ne nastaje sama u društvu od 2 milijuna AI agenata
arXiv:2604.21816: 'Tool Attention Is All You Need' eliminira MCP Tax — 95 posto redukcija tokena po turnu agentic workflowa