🟡 🤖 モデル 公開日: · 3 分で読めます ·

arXiv:2605.13301 SU-01:30B A3B モデルが3段階トレーニングで IMO 2025・USAMO 2026・IPhO において金メダルレベルを達成

arXiv:2605.13301 ↗

編集イラスト:数学の数式と AI 推論ツリーを持つメダル表彰台。

SU-01 は2026年5月14日に arXiv で公開された新しい推論トレーニング手法論です(Yafu Li ほか27名の共著者、責任著者 Runzhe Zhan)。30B パラメータ A3B バックボーンが、340K トラジェクトリを使った逆パープレキシティカリキュラム SFT、2段階 RL、テスト時スケーリングという3つの連続フェーズを通じて、IMO 2025、USAMO 2026、IPhO 2024-2025 で金メダルレベルのパフォーマンスを達成します。推論チェーンは 100K+ トークンに達します。

🤖

この記事はAIにより一次情報源から生成されました。

Yafu Li(責任連絡先 Runzhe Zhan)ほか27名の共著者は、2026年5月14日に SU-01 を発表しました。推論バックボーンをオリンピックレベルのソルバーに変換するための統一手法論です。30B パラメータ A3B モデルは3つのエリート競技ベンチマークで金メダルレベルを達成しています:IMO 2025、USAMO 2026、IPhO 2024-2025。

モデルの規模はどれくらいで、トップレベルはどのように測られますか?

SU-01 は 30B パラメータ A3B バックボーン を使用しています。同じ領域で競合する多くのフロンティアモデルよりも大幅に小規模です。IMO 2025 および USAMO 2026 での金メダル達成は、長期的な数学・物理推論においてトレーニング手法論が生のパラメータスケーリングよりも重要であることを示唆しています。推論チェーンは個々の問題に対して 100,000 トークンを超える 場合があります。これはモデルが答えを「推測」しているのではなく、詳細な証明の痕跡を構築していることを示す指標です。

3つのトレーニングフェーズはどのように機能しますか?

フェーズ1:逆パープレキシティカリキュラム SFT。 このアプローチは教師ありファインチューニングフェーズで約 340,000 トラジェクトリ(各 8K トークン未満)を使用します。逆パープレキシティカリキュラムとは、トレーニングスケジュールがモデルにとって最も確率の高いトラジェクトリ(簡単なもの)から最も確率の低いトラジェクトリ(最も難しいもの)へと進むことを意味します。これにより証明探索と検証行動が段階的に発達します。

フェーズ2:2段階 RL パイプライン。 強化学習には2つのサブステージがあります。まず検証可能な報酬信号(数学的回答に対する明確なバイナリ「正解/不正解」)、次に証明レベルの最適化(最終回答だけでなく論証の質に対する連続報酬)です。

フェーズ3:テスト時スケーリング。 競技問題セットに対して拡張思考と並列サンプリングを有効化する推論時技術です。より難しい問題に対してモデルが推論により多くの計算を費やすようになります。

SU-01 は推論モデル全般にとって何を意味しますか?

この論文は、手法論を異なる推論バックボーンに適用可能な 移転可能なレシピ として位置づけています。30B モデルが SU-01 トレーニングで金メダルレベルを達成できるなら、既存のオープンソースモデル(Llama、Qwen、DeepSeek)が適切なトレーニングパイプラインを通じて未活用の推論能力を持つことが示唆されます。数学を超えた汎化も実証されています。IPhO(物理)の結果は純粋な数学内だけでなく STEM ドメイン間での転移を示しています。

このアプローチは、スケーリングよりもトレーニングデータの質と手法論が決定的に重要であると主張する2025-2026年の論文の波を引き継ぐものであり、メモリ最適化に関する arXiv:2605.10870 レート歪み論文および arXiv:2605.11882 FATE 安全アラインメントと相補的な関係にあります。

よくある質問

SU-01 モデルのアーキテクチャは何ですか?
SU-01 は 30B パラメータ A3B バックボーンアーキテクチャを使用しています。同様の数学オリンピック推論を達成する多くのフロンティアモデルよりも大幅に小規模であり、長期的な数学・物理推論においてモデルサイズよりもトレーニング手法論が重要であることを示唆しています。
3つのトレーニングフェーズはどのように機能しますか?
フェーズ1は約 340K トラジェクトリ(各 8K トークン未満)での逆パープレキシティカリキュラム SFT を使用し、証明探索と検証行動を発達させます。フェーズ2は検証可能な報酬から証明レベル最適化への2段階 RL パイプラインです。フェーズ3は競技問題セットにテスト時スケーリング技術を追加します。