arXiv:2606.26502: modeli ne odustaju na promašaju

Studija arXiv:2606.26502 istraživača Han-yu Wanga otkriva da veliki reasoning modeli (LRM) troše više tokena na zadatke koje pogriješe nego na one koje riješe točno, suprotno ljudima koji na težim zadacima odustaju. Razmak je velik (Cohen's d 1,47–3,13 na H-ARC benchmarku), a svih pet testiranih modela pokazalo je obrnuti obrazac od ljudi.

Zašto modeli ne odustaju kad griješe?

Studija pod naslovom Humans Disengage, Reasoning Models Persist (arXiv:2606.26502, Han-yu Wang, predano 25. lipnja 2026.) pokazuje da veliki reasoning modeli (LRM, Large Reasoning Models — modeli koji generiraju duge lance rezoniranja) troše više tokena na zadatke koje na kraju pogriješe nego na one koje riješe točno. Ljudi rade obrnuto: na zadacima koje griješe troše manje vremena jer odustaju.

Registracija težine nasuprot raspodjeli truda

Autor razdvaja dva mehanizma: registraciju (kako vrijeme odgovora korelira s težinom kroz različite zadatke) i raspodjelu (raste li trud na promašajima ili na pogocima). Ljudi i LRM-ovi slično registriraju težinu kroz zadatke, ali se razilaze unutar istog zadatka. Razmak je velik: Cohen’s d (mjera veličine efekta) iznosi 1,47 do 3,13 na H-ARC benchmarku, a svih pet testiranih modela pokazalo je obrnuti obrazac od ljudi.

Što to znači za efikasnost inferencije

Disociacija se održava kroz više skupova podataka i pod fiksnim efektima zadatka, što isključuje da je riječ samo o težini. Interpretacija glasi: LRM produžuje lanac rezoniranja vođen nesigurnošću upravo kad raste vjerojatnost neuspjeha. Praktična posljedica je da dulji odgovor nije pouzdan signal točnosti — može biti znak da model zapinje na problemu.

Česta pitanja

Koja je glavna razlika između ljudi i reasoning modela?

Ljudi odustaju i troše manje vremena na zadatke koje griješe, dok reasoning modeli produžuju lanac rezoniranja upravo kad je vjerojatnost neuspjeha veća.

Što je Cohen's d?

Cohen's d je mjera veličine efekta; vrijednosti 1,47–3,13 ukazuju na vrlo velik razmak između potrošnje tokena na točnim i netočnim odgovorima.

arXiv:2606.26502: reasoning modeli troše više tokena na zadatke koje pogriješe, suprotno od ljudi koji odustaju

Zašto modeli ne odustaju kad griješe?

Registracija težine nasuprot raspodjeli truda

Što to znači za efikasnost inferencije

Česta pitanja

Izvori

Povezane vijesti