arXiv:2606.27483: Internalizing the Future — jedinstvena paradigma treniranja za svjetski model planiranja LLM agenata
Internalizing the Future je preprint koji su Xuan Zhang i osam koautora iz Tencenta predali na arXiv 25. lipnja 2026. Rad predlaže trofazni trening (WM-AMT, FE-SFT, FC-RL) kojim LLM agenti razvijaju world model — sposobnost generiranja projekcija budućih stanja i procjene uspješnosti plana, umjesto pukog reaktivnog reagiranja.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je world model i forward-looking planiranje
LLM agenti — jezični modeli koji autonomno izvršavaju zadatke — danas tipično reagiraju na trenutno stanje bez internog procjenjivanja posljedica. Nedostatak forward-looking planiranja (planiranja usmjerenog unaprijed) znači da agent ne može procijeniti koliko je neki plan dobar prije nego ga izvrši. World model (model svijeta) je upravo taj unutarnji mehanizam: sposobnost simuliranja mogućih budućih stanja okoline, slično mentalnim eksperimentima “što bi se dogodilo kad bih ovo napravio”.
Preprint “Internalizing the Future”, koji su istraživači Tencenta predali na arXiv 25. lipnja 2026., identificira ključni problem: standardnim fine-tuningom LLM modeli razvijaju samo površno, superficijalno predviđanje — bez stvarnog utemeljenja u logici izvršavanja zadataka.
Trofazni trening: WM-AMT, FE-SFT i FC-RL
Tim od devet autora Tencenta — Xuan Zhang, Zhijian Zhou, Lingfeng Qiao, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu i Yuan Qi — predlaže trening u tri faze:
- WM-AMT (World Model Agentic Mid-Training): u mid-training fazi model uči generirati “prospective state rolloutse” — projekcije budućih stanja — i procjene uspješnosti plana.
- FE-SFT (Format-Eliciting Supervised Fine-Tuning): nadziranim finim podešavanjem model uči strukturirati ta predviđanja u konzistentan, upotrebljiv format.
- FC-RL (Foresight-Conditioned Reinforcement Learning): potkrepljenim učenjem (RL) predviđanja se kalibriraju i postaju stvarno korisna za donošenje agenskih odluka.
Za razliku od reaktivnih LLM agenata koji generiraju odgovor bez internih simulacija budućnosti, Internalizing the Future internalizira taj proces u jedan autoregresijski model koji istovremeno predviđa buduća stanja i procjenjuje uspješnost.
Potvrđuju li rezultati ovaj pristup?
Evaluacija na zadacima zaključivanja (reasoning) i pretraživanja (search) pokazuje da pristup dosljedno nadmašuje usporedne baseline metode. Konkretni numerički rezultati nisu detaljno navedeni u javno dostupnom sažetku na arXiv-u — što je uobičajeno za radove koji su tek predani i nisu prošli neovisnu recenziju. Internalizing the Future ostaje akademski preprint Tencenta čija je šira potvrda tek pred nama.
Česta pitanja
- Što je 'world model' u kontekstu LLM agenata?
- World model je unutarnji mehanizam kojim agent simulira moguća buduća stanja okoline prije nego poduzme akciju — analogija s mentalnim prolazom kroz scenarije 'što ako' umjesto pukog reagiranja na trenutno stanje.
- Koje su tri faze treninga koje predlaže Internalizing the Future?
- WM-AMT (injektiranje prediktivnih sposobnosti u mid-training fazi), FE-SFT (strukturiranje predviđanja kroz nadzirano fino podešavanje) i FC-RL (dorada potkrepljenim učenjem za kalibrirana, korisna predviđanja).
Izvori
Povezane vijesti
LangChain: Dynamic Subagents u Deep Agents — agent piše kod koji paralelno dispatcha stotine podagenata
Microsoft: 2026 Agent Confidence Index — 300 graditelja, prosječno povjerenje u AI agente 64/100
Microsoft Research: Memora — memorija AI agenata uz do 98% manje tokena i SOTA na dugim razgovorima