arXiv:2606.26935: dobici CoT treninga slijevaju se u jače predviđanje akcije, a ne u dublje rezoniranje agenata
Studija arXiv:2606.26935 istraživača Jingyu Liu i suradnika pokazuje da se dobici treniranja lancem misli (CoT) kod LLM agenata slijevaju u jače izravno predviđanje akcije, a ne u širu prednost rezoniranja. Kasniji checkpointi rjeđe revidiraju akciju, dok maskiranje supervizije nad action-tokenima poboljšava generalizaciju izvan domene.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Gdje zapravo slijeću dobici CoT treninga?
Studija pod naslovom Where Do CoT Training Gains Land in LLM based Agents? (arXiv:2606.26935, Jingyu Liu i suradnici, predano 25. lipnja 2026.) tvrdi da se dobici treniranja lancem misli slijevaju u izravno predviđanje akcije, a ne u dublje rezoniranje. CoT (Chain-of-Thought, lanac misli) je tehnika u kojoj model generira korake razmišljanja prije konačne odluke. Autori uspoređuju prompt akcije (bez CoT-a) s CoT akcijama kroz checkpointe treniranja.
Metoda usporedbe checkpointa
Kvaliteta prompt akcija znatno je rasla tijekom treniranja, dok je relativna prednost CoT-a nad izravnim predviđanjem ostala stabilna. Drugim riječima, CoT trening nije proširio prednost lanca misli — povećao je sposobnost modela da točnu akciju pogodi izravno. U kasnijim checkpointima modeli su postali manje skloni revidirati akciju kao odgovor na CoT, što ukazuje na sve veće oslanjanje na početnu procjenu.
Intervencija maskiranjem
Autori testiraju intervenciju: maskiranje supervizije nad action-tokenima na dijelu primjera tijekom treniranja. Ta je promjena poboljšala generalizaciju izvan domene (out-of-domain). Nalaz dovodi u pitanje raširenu pretpostavku da CoT trening uči modele da bolje rezoniraju kroz problem — umjesto toga, model tek pouzdanije pogađa ishod.
Česta pitanja
- Što je CoT (lanac misli)?
- CoT (Chain-of-Thought, lanac misli) je tehnika u kojoj model generira korake razmišljanja prije konačne akcije ili odgovora.
- Što studija otkriva o CoT treningu?
- Da dobici treninga prvenstveno jačaju izravno predviđanje akcije, dok se prednost CoT-a nad izravnim predviđanjem tijekom treniranja ne povećava.
Povezane vijesti
arXiv:2606.26502: reasoning modeli troše više tokena na zadatke koje pogriješe, suprotno od ljudi koji odustaju
GitHub: MAI-Code-1-Flash, Microsoftov coding model, sada općedostupan u Copilot Business i Enterprise planovima
Anthropic: API rate limiti podignuti — Sonnet i Haiku sad na razini Opusa, tri tiera