Latent-GRPO:潜在推論のための安定したRL最適化——GSM8K-Augで7.86ポイント、AIMEで4.27ポイント向上、推論チェーンは3-4倍短縮
研究者らは、推論ステップを連続表現に圧縮する潜在推論(latent reasoning)向けの安定化RLアプローチであるLatent-GRPOを提示した。潜在空間における直接的なGRPOには3つの根本的問題——無効な潜在状態、報酬信号とトークン更新の不整合、無効な平均状態——があると特定し、無効サンプルのアドバンテージマスキング、片側ノイズサンプリング、最適正解パスの先頭トークン選択の組み合わせで解決した。結果:GSM8K-AugでPass@1 +7.86、AIMEで +4.27ポイント、推論チェーンは3-4倍短縮。
研究チーム(Jingcheng Deng、Zihao Wei、Liang Pang、Junhong Wu、Shicheng Xu、Zenghao Duan、Huawei Shen)は2026年4月30日、現代の言語モデル推論における核心的問題のひとつ——潜在空間での強化学習の安定性——を解決する論文を発表した。
何を解決しようとしているのか
今日の推論モデルの大半は明示的なchain-of-thoughtを用いている——解への手順を記述する長いテキストを生成する。アプローチは効果的だが高コストである:長いチェーンは多数のトークンを意味し、それは直接的にコストとレイテンシを押し上げる。
潜在推論(latent reasoning) はその代替である:推論ステップは言語化されず、モデル内部の連続ベクトル表現に圧縮される。これによりチェーンは劇的に短縮される。問題は、GRPOのような従来のRLアルゴリズムがこの空間ではうまく機能しないことだ。
直接的なGRPOにおける3つの根本的問題
著者らは、GRPOを潜在推論にそのまま適用すると不安定になる3つの構造的問題を特定する:
- 無効な潜在状態(Invalid latent states) ——RLの無制限な探索がモデルが通常動作する多様体から外れる方向に進み、表現が「ゴミ」になる。
- 報酬-トークンの不整合(Reward-token misalignment) ——報酬信号は系列全体に属するが、更新は個々のトークンに適用される;介入なしでは勾配が誤った方向に進む。
- 無効な平均状態(Invalid averaged states) ——複数の有効な経路が正解に至る場合、それらの平均はどの経路にも属さない表現を生む。
Latent-GRPOは各問題をどう解決するのか
3つの問題はそれぞれ的を絞った介入で解決される:
- 無効サンプルのアドバンテージマスキング(Invalid-sample advantage masking) ——多様体から外れたサンプルにはアドバンテージをゼロにすることで、その上での勾配を打ち消す
- 片側ノイズサンプリング(One-sided noise sampling) ——探索を分布の片側に限定し、発散を防ぐ
- 最適正解パスの先頭トークン選択(Optimal correct-path first-token selection) ——すべての正解パスの中から、その先頭トークンがモデルの表現に最も合致するものを選び、無効状態の平均化を回避する
数字
3つの主要な指標:
| ベンチマーク | アプローチ | 向上幅 |
|---|---|---|
| GSM8K-Aug(低難度数学) | Latent-GRPO vs ベースライン | +7.86 Pass@1ポイント |
| AIME(高難度数学) | Latent-GRPO vs 明示的GRPO | +4.27ポイント |
| 推論チェーン長 | Latent-GRPO vs 明示的 | 3-4倍短縮 |
特に注目すべきは、向上が易しい課題と難しい課題の双方に現れている点で、これはLatent-GRPOが汎用的な能力を局所的な改善のために犠牲にしていないことを示唆する。
なぜこれが重要なのか
現在の「推論モデル」のトレンド(OpenAI oシリーズ、DeepSeek Rシリーズ、Anthropic extended thinking)は、競争力が長い推論の能力に基づいて構築されることを示している。しかし境界を一歩動かすたびに、より多くのトークンが必要になり、これは推論のコスト方程式を直撃し——リアルタイムや大規模である必要のある用途を制限する。
Latent-GRPOが再現性を実証するなら、同水準の推論を3-4倍少ないトークンで達成できることを意味する——タスクあたりコストを最適化する組織にとっては大きなシグナルである。もう一つのより深い洞察は方法論的なものだ:本論文は、既存のRLアルゴリズムを新しい表現空間へ素朴に拡張してもうまく機能しないことを示し、何を修正すべきかについての具体的な方法論を提供している。これにより、品質を短縮のために犠牲にしない次世代の効率的な推論モデルの可能性が開かれる。
よくある質問
- 潜在推論(latent reasoning)とは何か
- 推論ステップを明示的なテキスト(chain-of-thought)として書き出すのではなく、連続的なベクトル表現に圧縮するアプローチである。複雑な問題を解く能力を維持しつつ、推論チェーンの長さを大幅に短縮することを目的とする。
- なぜ直接的なGRPOは潜在空間で機能しないのか
- 3つの理由がある:(1) 無制限の探索による無効な潜在状態がモデルが通常動作する多様体から外れる、(2) 報酬信号が個々のトークン更新と整合しない、(3) 複数の有効な経路を平均すると、そのいずれにも属さない無効な平均状態が生じる。Latent-GRPOは各問題を的を絞った介入で解決する。
- 結果はどれほど有意か
- GSM8K-AugベンチマークではベースラインよりPass@1が+7.86ポイント、AIME(高難度数学)では明示的GRPOより+4.27ポイント。重要なのは、これらの向上が推論チェーンの3-4倍の短縮と同時に達成されている点で、推論コストに直接的な影響をもつ。
この記事はAIにより一次情報源から生成されました。