arXiv:2605.13301 SU-01:30B A3B 模型通过三阶段训练在 IMO 2025、USAMO 2026 和 IPhO 达到金牌水平
SU-01 是2026年5月14日在 arXiv 发布的全新推理训练方法论(Yafu Li 及27位共同作者,通讯作者 Runzhe Zhan)。30B 参数 A3B 骨干网络通过三个连续阶段——340K 轨迹上的逆困惑度课程 SFT、两阶段 RL 和测试时扩展——在 IMO 2025、USAMO 2026 和 IPhO 2024-2025 达到金牌水平。推理链可延伸至 100K+ 词元。