arXiv:2606.26935: CoT trening jača akciju

Studija arXiv:2606.26935 istraživača Jingyu Liu i suradnika pokazuje da se dobici treniranja lancem misli (CoT) kod LLM agenata slijevaju u jače izravno predviđanje akcije, a ne u širu prednost rezoniranja. Kasniji checkpointi rjeđe revidiraju akciju, dok maskiranje supervizije nad action-tokenima poboljšava generalizaciju izvan domene.

Gdje zapravo slijeću dobici CoT treninga?

Studija pod naslovom Where Do CoT Training Gains Land in LLM based Agents? (arXiv:2606.26935, Jingyu Liu i suradnici, predano 25. lipnja 2026.) tvrdi da se dobici treniranja lancem misli slijevaju u izravno predviđanje akcije, a ne u dublje rezoniranje. CoT (Chain-of-Thought, lanac misli) je tehnika u kojoj model generira korake razmišljanja prije konačne odluke. Autori uspoređuju prompt akcije (bez CoT-a) s CoT akcijama kroz checkpointe treniranja.

Metoda usporedbe checkpointa

Kvaliteta prompt akcija znatno je rasla tijekom treniranja, dok je relativna prednost CoT-a nad izravnim predviđanjem ostala stabilna. Drugim riječima, CoT trening nije proširio prednost lanca misli — povećao je sposobnost modela da točnu akciju pogodi izravno. U kasnijim checkpointima modeli su postali manje skloni revidirati akciju kao odgovor na CoT, što ukazuje na sve veće oslanjanje na početnu procjenu.

Intervencija maskiranjem

Autori testiraju intervenciju: maskiranje supervizije nad action-tokenima na dijelu primjera tijekom treniranja. Ta je promjena poboljšala generalizaciju izvan domene (out-of-domain). Nalaz dovodi u pitanje raširenu pretpostavku da CoT trening uči modele da bolje rezoniraju kroz problem — umjesto toga, model tek pouzdanije pogađa ishod.

Česta pitanja

Što je CoT (lanac misli)?

CoT (Chain-of-Thought, lanac misli) je tehnika u kojoj model generira korake razmišljanja prije konačne akcije ili odgovora.

Što studija otkriva o CoT treningu?

Da dobici treninga prvenstveno jačaju izravno predviđanje akcije, dok se prednost CoT-a nad izravnim predviđanjem tijekom treniranja ne povećava.

arXiv:2606.26935: dobici CoT treninga slijevaju se u jače predviđanje akcije, a ne u dublje rezoniranje agenata

Gdje zapravo slijeću dobici CoT treninga?

Metoda usporedbe checkpointa

Intervencija maskiranjem

Česta pitanja

Izvori

Povezane vijesti