🟢 🤖 模型 发布于: · 1 分钟阅读 ·

arXiv:2605.19762: ICML 2026论文声称代码并不能提升LLM的数学推理能力

arXiv:2605.19762 ↗

Editorial illustration: ICML 2026论文证明结构化推理信号超越纯代码,对LLM数学推理更有效

被ICML 2026收录的arXiv预印本通过受控预训练实验表明,可执行代码本身并不能改善LLM模型的整体推理能力——代码大幅提升了编程能力,但在标准模式下与数学任务存在竞争关系。数学方面的真正进步来自跨领域结构化推理轨迹(代码-文本与数学-文本混合),对专家混合模型的机制分析在专家激活模式中揭示了这些交互关系。

🤖

本文由人工智能基于一手来源生成。

预印本arXiv:2605.19762ICML 2026收录,通过受控预训练实验颠覆了LLM社区中广泛流行的假设:在训练数据中添加代码会自动提升模型的整体推理能力。

核心主张是什么?

研究人员对同一模型的多个变体进行了训练,使用了受控混合的预训练数据——代码、纯文本和结构化数学证明的比例各不相同。结果表明,纯代码可以大幅提升编程能力,但不能提升整体数学推理能力。更进一步,代码和数学在标准模式下竞争同一容量,因此增加代码比例实际上可能降低在困难数学任务上的表现。

专家混合模型的机制分析揭示了什么?

研究团队在专家混合(MoE)模型中追踪了路由活动——哪些专家被激活以处理哪类任务。结果显示,在使用标准混合方式训练的模型中,编程专家和数学专家之间存在负向交互。解决方案来自跨领域结构化轨迹——代码-文本数学-文本混合——它们激活的是协同模式而非竞争性分配。

对预训练实验室有何实践启示?

建议在固定的预训练预算中增加结构化数学轨迹(纯文本证明、逐步解题、数学-文本混合)的比例。研究团队报告在保留编程能力的同时,在困难数学基准上取得了显著提升。这对从事新一代前沿模型研发的实验室——Anthropic、OpenAI、Google DeepMind、Meta、Mistral、DeepSeek、Qwen——具有重要参考价值,可能影响下一代预训练数据配方。

常见问题

论文的核心主张是什么?
论文认为,仅在预训练中添加代码可以提升编程能力,但不能提升整体数学推理能力。数学的真正进步需要结合代码与文本或数学与文本的结构化推理轨迹——跨领域混合,而非纯代码。
机制分析揭示了什么?
研究人员在专家混合(MoE)模型中追踪了路由活动——哪些专家被激活以处理哪类任务。结果显示,在使用标准混合方式训练的模型中,编程专家和数学专家存在部分相互竞争容量的情况,这解释了标准预训练中的负向交互作用。
实践中有何建议?
研究团队建议在固定预训练预算中增加结构化数学轨迹(纯文本证明、逐步解题、数学-文本混合)的比例。结果是在保留编程能力的同时,在困难数学基准上取得了显著提升。