arXiv:2606.26935：CoT训练强化动作预测

arXiv:2606.26935 研究（Jingyu Liu 等人）表明，LLM 智能体的思维链（CoT）训练收益流向更强的直接动作预测，而非更广泛的推理优势。后期检查点更少因 CoT 修改动作，而对 action-token 掩盖监督信号则提升了域外泛化能力。

CoT 训练收益究竟落在哪里？

论文《Where Do CoT Training Gains Land in LLM based Agents?》（arXiv:2606.26935，Jingyu Liu 等人，2026 年 6 月 25 日投稿）指出，思维链训练收益流向直接动作预测，而非更深层的推理能力。CoT（Chain-of-Thought，思维链）是一种在模型给出最终决策前先生成推理步骤的技术。作者对比了训练检查点中的提示动作（无 CoT）与 CoT 动作。

检查点对比方法

提示动作的质量在训练过程中显著提升，而 CoT 相对于直接预测的优势则保持稳定。换言之，CoT 训练并未扩大思维链的优势——而是提升了模型直接猜中正确动作的能力。在后期检查点中，模型受 CoT 影响修改动作的频率降低，表明对初始判断的依赖程度不断增加。

掩码干预

作者测试了一项干预措施：在训练期间对部分样本的 action-token 掩盖监督信号。这一改动提升了域外（out-of-domain）泛化能力。该发现质疑了「CoT 训练使模型更善于推理」这一普遍假设——实际上，模型只是更可靠地猜中了结果。

常见问题

什么是 CoT（思维链）？

CoT（Chain-of-Thought，思维链）是一种让模型在给出最终动作或答案前先生成推理步骤的技术。

该研究对 CoT 训练有何发现？

训练收益主要增强直接动作预测能力，而 CoT 相对于直接预测的优势在训练过程中并未扩大。

arXiv:2606.26935: CoT 训练收益流向更强的动作预测，而非更深的智能体推理

CoT 训练收益究竟落在哪里？

检查点对比方法

掩码干预

常见问题

来源

相关新闻