🟡 🤖 モデル 2026年4月13日月曜日 · 2 分で読めます
ArXiv SPPO:シーケンスレベルPPOが長い推論チェーンにおけるクレジット割り当て問題を解決
なぜ重要か
Sequence-Level PPOはLLM推論をコンテキストバンディット問題として再定式化し、マルチサンプリングなしでGRPOなどの高コストなグループ手法と同等のパフォーマンスを劇的に少ないリソースで達成する。
トークンレベルPPOの問題
標準PPO(Proximal Policy Optimization)は、検証可能な報酬を持つ推論タスクでLLMをアラインメントするための中心的なアルゴリズムである。しかし、トークンレベルPPOには2つの問題がある:
- クレジット割り当ての不安定性——長いChain-of-Thought(CoT)チェーンにおいて、個々のトークンへの貢献度の割り当てが不安定になる
- 法外なメモリコスト——バリューモデルが大量のリソースを必要とする
GRPOのようなクリティックなしの代替手法はこれらの問題を緩和するが、ベースライン推定のためにマルチサンプリングを必要とし、訓練スループットを大幅に制限する。
SPPO——両方の長所を兼ね備える
研究チーム(Wang、Li、Li、Chen、Huang他)がSequence-Level PPO(SPPO)を導入した。推論プロセスをシーケンスレベルのコンテキストバンディット問題として再定式化する。
重要なイノベーション:マルチサンプリングなしで低分散シグナルを提供する分離されたスカラーバリュー関数。
結果
数学ベンチマークにおいて、SPPOは:
- 標準トークンレベルPPOを大幅に上回る
- 計算コストの高いグループ手法(GRPO)と同等のパフォーマンスを達成
- 劇的に効率的——マルチサンプリングのオーバーヘッドなし
推論モデルを訓練する研究者にとって、SPPOは実用的な代替手段を提供する:GRPOのパフォーマンスを標準PPOに近いコストで実現する。
🤖 この記事はAIにより一次情報源から生成されました。