🟢 🤖 模型 发布于: · 1 分钟阅读 ·

arXiv:2606.26502: 推理模型在出错任务上消耗更多 token,与人类放弃的行为相反

arXiv:2606.26502 ↗

编辑插图:两条努力曲线相互背离,一升一降,无文字无人脸

arXiv:2606.26502 研究(Han-yu Wang)发现,大型推理模型(LRM)在最终出错的任务上消耗的 token 多于答对的任务,与人类在困难任务上选择放弃的行为相反。差距显著(H-ARC 基准 Cohen's d 为 1.47–3.13),所有五款测试模型均呈现与人类相反的模式。

🤖

本文由人工智能基于一手来源生成。

为什么模型出错时不会放弃?

论文《Humans Disengage, Reasoning Models Persist》(arXiv:2606.26502,Han-yu Wang,2026 年 6 月 25 日投稿)表明,大型推理模型(LRM,Large Reasoning Models——生成长推理链的模型)在最终出错的任务上消耗的 token 多于答对的任务。人类行为则相反:在出错的任务上花费更少时间,因为会选择放弃。

难度感知与努力分配

作者区分了两种机制:感知(响应时间如何跨任务与难度相关)和分配(出错时还是答对时付出更多努力)。人类和 LRM 对跨任务难度的感知相似,但在同一任务内部呈现分歧。差距显著:H-ARC 基准上 Cohen’s d(效应量)为 1.47 至 3.13,所有五款测试模型均呈现与人类相反的模式。

对推理效率的启示

这种分离在多个数据集上持续存在,且在控制任务固定效应后依然成立,排除了仅凭难度解释的可能。解释如下:LRM 在失败概率升高时,在不确定性驱动下延长推理链。实际影响是:更长的回答并非准确性的可靠信号——反而可能是模型陷入困境的标志。

常见问题

人类与推理模型的主要区别是什么?
人类在出错的任务上会放弃并花费更少时间,而推理模型在失败概率更高时反而延长推理链。
Cohen's d 是什么?
Cohen's d 是效应量的度量;1.47–3.13 的数值表明答对与出错任务之间的 token 消耗差距极大。