🟢 🤖 模型 发布于: · 1 分钟阅读 ·

arXiv:2606.26935: CoT 训练收益流向更强的动作预测,而非更深的智能体推理

arXiv:2606.26935 ↗

编辑插图:分叉的决策流收窄为单一清晰路径,无文字无人脸

arXiv:2606.26935 研究(Jingyu Liu 等人)表明,LLM 智能体的思维链(CoT)训练收益流向更强的直接动作预测,而非更广泛的推理优势。后期检查点更少因 CoT 修改动作,而对 action-token 掩盖监督信号则提升了域外泛化能力。

🤖

本文由人工智能基于一手来源生成。

CoT 训练收益究竟落在哪里?

论文《Where Do CoT Training Gains Land in LLM based Agents?》(arXiv:2606.26935,Jingyu Liu 等人,2026 年 6 月 25 日投稿)指出,思维链训练收益流向直接动作预测,而非更深层的推理能力。CoT(Chain-of-Thought,思维链)是一种在模型给出最终决策前先生成推理步骤的技术。作者对比了训练检查点中的提示动作(无 CoT)与 CoT 动作。

检查点对比方法

提示动作的质量在训练过程中显著提升,而 CoT 相对于直接预测的优势则保持稳定。换言之,CoT 训练并未扩大思维链的优势——而是提升了模型直接猜中正确动作的能力。在后期检查点中,模型受 CoT 影响修改动作的频率降低,表明对初始判断的依赖程度不断增加。

掩码干预

作者测试了一项干预措施:在训练期间对部分样本的 action-token 掩盖监督信号。这一改动提升了域外(out-of-domain)泛化能力。该发现质疑了「CoT 训练使模型更善于推理」这一普遍假设——实际上,模型只是更可靠地猜中了结果。

常见问题

什么是 CoT(思维链)?
CoT(Chain-of-Thought,思维链)是一种让模型在给出最终动作或答案前先生成推理步骤的技术。
该研究对 CoT 训练有何发现?
训练收益主要增强直接动作预测能力,而 CoT 相对于直接预测的优势在训练过程中并未扩大。