arXiv:2606.20008: VIMPO — クリティック不要の強化学習がMATH-500とAIMEでGRPOを上回る
VIMPOはLLM推論向けの新しい強化学習手法で、KL正則化RLから暗黙的価値関数を導出します。独立したクリティックネットワーク不要で、AIME 2024・AIME 2025を含む4つの数学ベンチマークでGRPOを上回り、ノイズのある報酬条件下でも安定した優位性を示します。
この記事はAIにより一次情報源から生成されました。
VIMPOとは何か、そしてなぜ重要なのか
VIMPO(Value-Implicit Policy Optimization、価値暗黙的方策最適化)は、LLMモデルを推論タスクでトレーニングするための強化学習(RL)手法です。UCバークレーの研究者(Zhewei Kang、Aosong Feng、Sergey Levine、Dawn Song、Xuandong Zhao)によって開発され、2026年6月19日に公開されました。
出発点となる問題:人気手法GRPOはクレジット割り当てが弱いという欠点があります。推論チェーンのどのステップが正解に貢献したかをうまく区別できないのです。標準的な解決策は独立したクリティックネットワークを追加することですが、トレーニングが複雑になりコストも増加します。
仕組み:暗黙的価値関数
VIMPOはクリティックネットワークをトレーニングしません。その代わりに、KL正則化RLの最適性条件から価値関数を数学的に導出します。この関数はモデルの方策自体に暗黙的に含まれており、追加コンポーネントなしにクレジット割り当てシグナルを得られます。
結果として、クリティック不要トレーニングの実用的シンプルさ(GRPOに類似)を保ちながら、その根本的な欠点を修正した手法が実現します。
結果:GRPOを一貫して上回る
VIMPOはテストした4つのベンチマークすべてでGRPOを上回りました:
- MATH-500 — 標準的な数学ベンチマーク
- AIME 2024とAIME 2025 — 難易度の高い競技数学
- OlympiadBench — オリンピアードレベルの問題
改善は一貫しており、ノイズのある報酬シグナル下でも安定して維持されます。これは自動採点が不完全な実際のアプリケーションにおいて重要な特性です。
推論モデル開発への意義
VIMPOは、2ネットワークシステムのアーキテクチャ的複雑さなしに、推論モデルのより良いRLトレーニングへの実用的な道を提供します。クリティックコンポーネントの並列トレーニングの必要性を排除するため、計算リソースが限られた研究グループに特に適した手法です。
よくある質問
- VIMPOはGRPOとどう違いますか?
- GRPOは推論チェーンのすべてのステップを均等に扱うため、クレジット割り当て問題が生じます。VIMPOはKL正則化RLの最適性条件から直接導出した「価値暗黙的」価値関数を導入することでこれを解決します。独立したクリティックネットワークのトレーニングは必要ありません。
- VIMPOはどのベンチマークでテストされましたか?
- 4つの数学ベンチマークでテストされています:MATH-500、AIME 2024、AIME 2025、OlympiadBenchです。ノイズのある報酬シグナルを含むすべてのシナリオで、GRPOより一貫して良い結果を示しました。
- VIMPOの開発者は誰ですか?
- 著者はUCバークレーのZhewei Kang、Aosong Feng、Sergey Levine、Dawn Song、Xuandong Zhaoです。論文は6月18日に提出され、2026年6月19日に公開されました。