arXiv SU-01：30B A3B 模型在 IMO/USAMO 夺金

SU-01 是2026年5月14日在 arXiv 发布的全新推理训练方法论（Yafu Li 及27位共同作者，通讯作者 Runzhe Zhan）。30B 参数 A3B 骨干网络通过三个连续阶段——340K 轨迹上的逆困惑度课程 SFT、两阶段 RL 和测试时扩展——在 IMO 2025、USAMO 2026 和 IPhO 2024-2025 达到金牌水平。推理链可延伸至 100K+ 词元。

Yafu Li（通讯联系人 Runzhe Zhan）及27位共同作者于2026年5月14日发布 SU-01——一种将推理骨干网络转化为奥林匹克级求解器的统一方法论。30B 参数 A3B 模型在三项顶级竞赛基准上达到金牌水平：IMO 2025、USAMO 2026 和 IPhO 2024-2025。

该模型规模如何，顶峰水平如何衡量？

SU-01 采用 30B 参数 A3B 骨干——显著小于同领域竞争的众多前沿模型。在 IMO 2025 和 USAMO 2026 达到金牌水平，表明训练方法论对于长程数学/物理推理比原始参数扩展更为关键。推理链在单个问题上可达超过 100,000 词元——这表明模型并非「猜答案」，而是构建了详细的证明轨迹。

三个训练阶段如何运作？

第一阶段：逆困惑度课程 SFT。 该方法在约 340,000 条轨迹（每条低于 8K 词元）上进行监督微调。逆困惑度课程意味着训练顺序从模型最可能的轨迹（较易）逐步推进到最不可能的轨迹（最难）——逐步培养证明搜索和验证行为。

第二阶段：两阶段 RL 流水线。 强化学习分两个子阶段：首先使用可验证奖励信号（数学答案的明确二元「正确/错误」），然后进行证明级优化（对论证质量的连续奖励，而非仅最终答案）。

第三阶段：测试时扩展。 推理时技术在竞赛题集上激活扩展思考和并行采样——模型对更难的问题投入更多推理计算。

SU-01 对推理模型总体意味着什么？

该论文将这一方法论定位为可应用于不同推理骨干的可迁移配方。如果 30B 模型能通过 SU-01 训练达到金牌水平，则表明现有开源模型（Llama、Qwen、DeepSeek）通过正确的训练流水线尚有未开发的推理能力。超越数学的泛化能力也已得到证明——IPhO（物理）结果显示 STEM 领域间的迁移，而非仅限于纯数学。

这一方法延续了2025-2026年强调训练数据质量和方法论比规模扩展更具决定性的论文浪潮——与 arXiv:2605.10870 关于内存优化的率失真论文及 arXiv:2605.11882 FATE 安全对齐相互补充。

常见问题

SU-01 模型的架构是什么？

SU-01 采用 30B 参数 A3B 骨干架构——比许多实现类似奥林匹克推理水平的前沿模型小得多，这表明训练方法论对于长程数学/物理推理比模型规模更为关键。

三个训练阶段如何运作？

第一阶段在约 340K 条轨迹（每条低于 8K 词元）上进行逆困惑度课程监督微调，以培养证明搜索和验证行为；第二阶段是从可验证奖励到证明级优化的两阶段 RL 流水线；第三阶段为竞赛题集添加测试时扩展技术。

arXiv:2605.13301 SU-01：30B A3B 模型通过三阶段训练在 IMO 2025、USAMO 2026 和 IPhO 达到金牌水平

该模型规模如何，顶峰水平如何衡量？

三个训练阶段如何运作？

SU-01 对推理模型总体意味着什么？

常见问题

来源

相关新闻