Tencent: LLM agenti uče planirati unaprijed

Internalizing the Future je preprint koji su Xuan Zhang i osam koautora iz Tencenta predali na arXiv 25. lipnja 2026. Rad predlaže trofazni trening (WM-AMT, FE-SFT, FC-RL) kojim LLM agenti razvijaju world model — sposobnost generiranja projekcija budućih stanja i procjene uspješnosti plana, umjesto pukog reaktivnog reagiranja.

Što je world model i forward-looking planiranje

LLM agenti — jezični modeli koji autonomno izvršavaju zadatke — danas tipično reagiraju na trenutno stanje bez internog procjenjivanja posljedica. Nedostatak forward-looking planiranja (planiranja usmjerenog unaprijed) znači da agent ne može procijeniti koliko je neki plan dobar prije nego ga izvrši. World model (model svijeta) je upravo taj unutarnji mehanizam: sposobnost simuliranja mogućih budućih stanja okoline, slično mentalnim eksperimentima “što bi se dogodilo kad bih ovo napravio”.

Preprint “Internalizing the Future”, koji su istraživači Tencenta predali na arXiv 25. lipnja 2026., identificira ključni problem: standardnim fine-tuningom LLM modeli razvijaju samo površno, superficijalno predviđanje — bez stvarnog utemeljenja u logici izvršavanja zadataka.

Trofazni trening: WM-AMT, FE-SFT i FC-RL

Tim od devet autora Tencenta — Xuan Zhang, Zhijian Zhou, Lingfeng Qiao, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu i Yuan Qi — predlaže trening u tri faze:

WM-AMT (World Model Agentic Mid-Training): u mid-training fazi model uči generirati “prospective state rolloutse” — projekcije budućih stanja — i procjene uspješnosti plana.
FE-SFT (Format-Eliciting Supervised Fine-Tuning): nadziranim finim podešavanjem model uči strukturirati ta predviđanja u konzistentan, upotrebljiv format.
FC-RL (Foresight-Conditioned Reinforcement Learning): potkrepljenim učenjem (RL) predviđanja se kalibriraju i postaju stvarno korisna za donošenje agenskih odluka.

Za razliku od reaktivnih LLM agenata koji generiraju odgovor bez internih simulacija budućnosti, Internalizing the Future internalizira taj proces u jedan autoregresijski model koji istovremeno predviđa buduća stanja i procjenjuje uspješnost.

Potvrđuju li rezultati ovaj pristup?

Evaluacija na zadacima zaključivanja (reasoning) i pretraživanja (search) pokazuje da pristup dosljedno nadmašuje usporedne baseline metode. Konkretni numerički rezultati nisu detaljno navedeni u javno dostupnom sažetku na arXiv-u — što je uobičajeno za radove koji su tek predani i nisu prošli neovisnu recenziju. Internalizing the Future ostaje akademski preprint Tencenta čija je šira potvrda tek pred nama.

Česta pitanja

Što je 'world model' u kontekstu LLM agenata?

World model je unutarnji mehanizam kojim agent simulira moguća buduća stanja okoline prije nego poduzme akciju — analogija s mentalnim prolazom kroz scenarije 'što ako' umjesto pukog reagiranja na trenutno stanje.

Koje su tri faze treninga koje predlaže Internalizing the Future?

WM-AMT (injektiranje prediktivnih sposobnosti u mid-training fazi), FE-SFT (strukturiranje predviđanja kroz nadzirano fino podešavanje) i FC-RL (dorada potkrepljenim učenjem za kalibrirana, korisna predviđanja).

arXiv:2606.27483: Internalizing the Future — jedinstvena paradigma treniranja za svjetski model planiranja LLM agenata

Što je world model i forward-looking planiranje

Trofazni trening: WM-AMT, FE-SFT i FC-RL

Potvrđuju li rezultati ovaj pristup?

Česta pitanja

Izvori

Povezane vijesti