arXiv:2605.13301 SU-01:30B A3B モデルが3段階トレーニングで IMO 2025・USAMO 2026・IPhO において金メダルレベルを達成
SU-01 は2026年5月14日に arXiv で公開された新しい推論トレーニング手法論です(Yafu Li ほか27名の共著者、責任著者 Runzhe Zhan)。30B パラメータ A3B バックボーンが、340K トラジェクトリを使った逆パープレキシティカリキュラム SFT、2段階 RL、テスト時スケーリングという3つの連続フェーズを通じて、IMO 2025、USAMO 2026、IPhO 2024-2025 で金メダルレベルのパフォーマンスを達成します。推論チェーンは 100K+ トークンに達します。