arXiv:2605.13301 SU-01:30B A3B 模型通过三阶段训练在 IMO 2025、USAMO 2026 和 IPhO 达到金牌水平
SU-01 是2026年5月14日在 arXiv 发布的全新推理训练方法论(Yafu Li 及27位共同作者,通讯作者 Runzhe Zhan)。30B 参数 A3B 骨干网络通过三个连续阶段——340K 轨迹上的逆困惑度课程 SFT、两阶段 RL 和测试时扩展——在 IMO 2025、USAMO 2026 和 IPhO 2024-2025 达到金牌水平。推理链可延伸至 100K+ 词元。
本文由人工智能基于一手来源生成。
Yafu Li(通讯联系人 Runzhe Zhan)及27位共同作者于2026年5月14日发布 SU-01——一种将推理骨干网络转化为奥林匹克级求解器的统一方法论。30B 参数 A3B 模型在三项顶级竞赛基准上达到金牌水平:IMO 2025、USAMO 2026 和 IPhO 2024-2025。
该模型规模如何,顶峰水平如何衡量?
SU-01 采用 30B 参数 A3B 骨干——显著小于同领域竞争的众多前沿模型。在 IMO 2025 和 USAMO 2026 达到金牌水平,表明训练方法论对于长程数学/物理推理比原始参数扩展更为关键。推理链在单个问题上可达超过 100,000 词元——这表明模型并非「猜答案」,而是构建了详细的证明轨迹。
三个训练阶段如何运作?
第一阶段:逆困惑度课程 SFT。 该方法在约 340,000 条轨迹(每条低于 8K 词元)上进行监督微调。逆困惑度课程意味着训练顺序从模型最可能的轨迹(较易)逐步推进到最不可能的轨迹(最难)——逐步培养证明搜索和验证行为。
第二阶段:两阶段 RL 流水线。 强化学习分两个子阶段:首先使用可验证奖励信号(数学答案的明确二元「正确/错误」),然后进行证明级优化(对论证质量的连续奖励,而非仅最终答案)。
第三阶段:测试时扩展。 推理时技术在竞赛题集上激活扩展思考和并行采样——模型对更难的问题投入更多推理计算。
SU-01 对推理模型总体意味着什么?
该论文将这一方法论定位为可应用于不同推理骨干的可迁移配方。如果 30B 模型能通过 SU-01 训练达到金牌水平,则表明现有开源模型(Llama、Qwen、DeepSeek)通过正确的训练流水线尚有未开发的推理能力。超越数学的泛化能力也已得到证明——IPhO(物理)结果显示 STEM 领域间的迁移,而非仅限于纯数学。
这一方法延续了2025-2026年强调训练数据质量和方法论比规模扩展更具决定性的论文浪潮——与 arXiv:2605.10870 关于内存优化的率失真论文及 arXiv:2605.11882 FATE 安全对齐相互补充。
常见问题
- SU-01 模型的架构是什么?
- SU-01 采用 30B 参数 A3B 骨干架构——比许多实现类似奥林匹克推理水平的前沿模型小得多,这表明训练方法论对于长程数学/物理推理比模型规模更为关键。
- 三个训练阶段如何运作?
- 第一阶段在约 340K 条轨迹(每条低于 8K 词元)上进行逆困惑度课程监督微调,以培养证明搜索和验证行为;第二阶段是从可验证奖励到证明级优化的两阶段 RL 流水线;第三阶段为竞赛题集添加测试时扩展技术。