Latent-GRPO:潜在推論のための安定したRL最適化——GSM8K-Augで7.86ポイント、AIMEで4.27ポイント向上、推論チェーンは3-4倍短縮
研究者らは、推論ステップを連続表現に圧縮する潜在推論(latent reasoning)向けの安定化RLアプローチであるLatent-GRPOを提示した。潜在空間における直接的なGRPOには3つの根本的問題——無効な潜在状態、報酬信号とトークン更新の不整合、無効な平均状態——があると特定し、無効サンプルのアドバンテージマスキング、片側ノイズサンプリング、最適正解パスの先頭トークン選択の組み合わせで解決した。結果:GSM8K-AugでPass@1 +7.86、AIMEで +4.27ポイント、推論チェーンは3-4倍短縮。