🟢 🤖 Modeli Objavljeno: · 1 min čitanja ·

arXiv:2606.26935: dobici CoT treninga slijevaju se u jače predviđanje akcije, a ne u dublje rezoniranje agenata

arXiv:2606.26935 ↗

Editorial ilustracija: razgranati tok odluka koji se sužava u jednu jasnu putanju, bez teksta i lica

Studija arXiv:2606.26935 istraživača Jingyu Liu i suradnika pokazuje da se dobici treniranja lancem misli (CoT) kod LLM agenata slijevaju u jače izravno predviđanje akcije, a ne u širu prednost rezoniranja. Kasniji checkpointi rjeđe revidiraju akciju, dok maskiranje supervizije nad action-tokenima poboljšava generalizaciju izvan domene.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Gdje zapravo slijeću dobici CoT treninga?

Studija pod naslovom Where Do CoT Training Gains Land in LLM based Agents? (arXiv:2606.26935, Jingyu Liu i suradnici, predano 25. lipnja 2026.) tvrdi da se dobici treniranja lancem misli slijevaju u izravno predviđanje akcije, a ne u dublje rezoniranje. CoT (Chain-of-Thought, lanac misli) je tehnika u kojoj model generira korake razmišljanja prije konačne odluke. Autori uspoređuju prompt akcije (bez CoT-a) s CoT akcijama kroz checkpointe treniranja.

Metoda usporedbe checkpointa

Kvaliteta prompt akcija znatno je rasla tijekom treniranja, dok je relativna prednost CoT-a nad izravnim predviđanjem ostala stabilna. Drugim riječima, CoT trening nije proširio prednost lanca misli — povećao je sposobnost modela da točnu akciju pogodi izravno. U kasnijim checkpointima modeli su postali manje skloni revidirati akciju kao odgovor na CoT, što ukazuje na sve veće oslanjanje na početnu procjenu.

Intervencija maskiranjem

Autori testiraju intervenciju: maskiranje supervizije nad action-tokenima na dijelu primjera tijekom treniranja. Ta je promjena poboljšala generalizaciju izvan domene (out-of-domain). Nalaz dovodi u pitanje raširenu pretpostavku da CoT trening uči modele da bolje rezoniraju kroz problem — umjesto toga, model tek pouzdanije pogađa ishod.

Česta pitanja

Što je CoT (lanac misli)?
CoT (Chain-of-Thought, lanac misli) je tehnika u kojoj model generira korake razmišljanja prije konačne akcije ili odgovora.
Što studija otkriva o CoT treningu?
Da dobici treninga prvenstveno jačaju izravno predviđanje akcije, dok se prednost CoT-a nad izravnim predviđanjem tijekom treniranja ne povećava.