arXiv:2606.26502: reasoning modeli troše više tokena na zadatke koje pogriješe, suprotno od ljudi koji odustaju
Studija arXiv:2606.26502 istraživača Han-yu Wanga otkriva da veliki reasoning modeli (LRM) troše više tokena na zadatke koje pogriješe nego na one koje riješe točno, suprotno ljudima koji na težim zadacima odustaju. Razmak je velik (Cohen's d 1,47–3,13 na H-ARC benchmarku), a svih pet testiranih modela pokazalo je obrnuti obrazac od ljudi.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Zašto modeli ne odustaju kad griješe?
Studija pod naslovom Humans Disengage, Reasoning Models Persist (arXiv:2606.26502, Han-yu Wang, predano 25. lipnja 2026.) pokazuje da veliki reasoning modeli (LRM, Large Reasoning Models — modeli koji generiraju duge lance rezoniranja) troše više tokena na zadatke koje na kraju pogriješe nego na one koje riješe točno. Ljudi rade obrnuto: na zadacima koje griješe troše manje vremena jer odustaju.
Registracija težine nasuprot raspodjeli truda
Autor razdvaja dva mehanizma: registraciju (kako vrijeme odgovora korelira s težinom kroz različite zadatke) i raspodjelu (raste li trud na promašajima ili na pogocima). Ljudi i LRM-ovi slično registriraju težinu kroz zadatke, ali se razilaze unutar istog zadatka. Razmak je velik: Cohen’s d (mjera veličine efekta) iznosi 1,47 do 3,13 na H-ARC benchmarku, a svih pet testiranih modela pokazalo je obrnuti obrazac od ljudi.
Što to znači za efikasnost inferencije
Disociacija se održava kroz više skupova podataka i pod fiksnim efektima zadatka, što isključuje da je riječ samo o težini. Interpretacija glasi: LRM produžuje lanac rezoniranja vođen nesigurnošću upravo kad raste vjerojatnost neuspjeha. Praktična posljedica je da dulji odgovor nije pouzdan signal točnosti — može biti znak da model zapinje na problemu.
Česta pitanja
- Koja je glavna razlika između ljudi i reasoning modela?
- Ljudi odustaju i troše manje vremena na zadatke koje griješe, dok reasoning modeli produžuju lanac rezoniranja upravo kad je vjerojatnost neuspjeha veća.
- Što je Cohen's d?
- Cohen's d je mjera veličine efekta; vrijednosti 1,47–3,13 ukazuju na vrlo velik razmak između potrošnje tokena na točnim i netočnim odgovorima.
Povezane vijesti
arXiv:2606.26935: dobici CoT treninga slijevaju se u jače predviđanje akcije, a ne u dublje rezoniranje agenata
GitHub: MAI-Code-1-Flash, Microsoftov coding model, sada općedostupan u Copilot Business i Enterprise planovima
Anthropic: API rate limiti podignuti — Sonnet i Haiku sad na razini Opusa, tri tiera