arXiv:2606.26502：推理模型出错时消耗更多token

arXiv:2606.26502 研究（Han-yu Wang）发现，大型推理模型（LRM）在最终出错的任务上消耗的 token 多于答对的任务，与人类在困难任务上选择放弃的行为相反。差距显著（H-ARC 基准 Cohen's d 为 1.47–3.13），所有五款测试模型均呈现与人类相反的模式。

为什么模型出错时不会放弃？

论文《Humans Disengage, Reasoning Models Persist》（arXiv:2606.26502，Han-yu Wang，2026 年 6 月 25 日投稿）表明，大型推理模型（LRM，Large Reasoning Models——生成长推理链的模型）在最终出错的任务上消耗的 token 多于答对的任务。人类行为则相反：在出错的任务上花费更少时间，因为会选择放弃。

难度感知与努力分配

作者区分了两种机制：感知（响应时间如何跨任务与难度相关）和分配（出错时还是答对时付出更多努力）。人类和 LRM 对跨任务难度的感知相似，但在同一任务内部呈现分歧。差距显著：H-ARC 基准上 Cohen’s d（效应量）为 1.47 至 3.13，所有五款测试模型均呈现与人类相反的模式。

对推理效率的启示

这种分离在多个数据集上持续存在，且在控制任务固定效应后依然成立，排除了仅凭难度解释的可能。解释如下：LRM 在失败概率升高时，在不确定性驱动下延长推理链。实际影响是：更长的回答并非准确性的可靠信号——反而可能是模型陷入困境的标志。

常见问题

人类与推理模型的主要区别是什么？

人类在出错的任务上会放弃并花费更少时间，而推理模型在失败概率更高时反而延长推理链。

Cohen's d 是什么？

Cohen's d 是效应量的度量；1.47–3.13 的数值表明答对与出错任务之间的 token 消耗差距极大。

arXiv:2606.26502: 推理模型在出错任务上消耗更多 token，与人类放弃的行为相反

为什么模型出错时不会放弃？

难度感知与努力分配

对推理效率的启示

常见问题

来源

相关新闻