Latent-GRPO：面向潜在推理的稳定 RL

研究人员提出 Latent-GRPO，一种针对潜在推理（推理步骤被压缩为连续表示）的稳定化 RL 方法。他们识别出在潜在空间中直接应用 GRPO 的三个根本性问题——无效潜在状态、奖励信号与 token 更新之间的错位、以及无效的平均状态——并通过无效样本优势屏蔽、单边噪声采样和最优正确路径首 token 选择的组合加以解决。结果：GSM8K-Aug 上 Pass@1 提升 7.86 分，AIME 上提升 4.27 分，推理链长度缩短 3-4 倍。

由 Jingcheng Deng、Zihao Wei、Liang Pang、Junhong Wu、Shicheng Xu、Zenghao Duan、Huawei Shen 组成的研究团队于 2026 年 4 月 30 日发布了一篇论文，解决了现代语言模型推理中的一个关键问题——潜在空间中强化学习的稳定性。

他们要解决什么问题？

如今大多数推理模型使用显式的思维链（chain-of-thought）——生成一长段描述解题步骤的文本。这种方法有效但代价高昂：长链意味着更多 token，直接推高成本与延迟。

潜在推理（latent reasoning） 是一种替代方案：推理步骤被压缩为模型内部的连续向量表示，无需显式表达，从而大幅缩短推理链。问题是：传统的 RL 算法（如 GRPO）在该空间中表现不佳。

直接应用 GRPO 的三个根本性问题

作者识别出使 GRPO 直接应用于潜在推理变得不稳定的 三个结构性问题：

无效潜在状态（Invalid latent states）——RL 的无界探索会偏离模型正常运作的流形；表示变成”垃圾”。
奖励-token 错位（Reward-token misalignment）——奖励信号属于整个序列，但更新却施加在单个 token 上；缺乏干预时，梯度方向是错误的。
无效平均状态（Invalid averaged states）——当多条有效路径都通向正确答案时，对它们取平均会产生不属于其中任何一条的表示。

Latent-GRPO 如何逐一解决？

每个问题都通过有针对性的干预加以解决：

无效样本优势屏蔽（Invalid-sample advantage masking）——偏离流形的样本被赋予零优势值，从而消除其上的梯度
单边噪声采样（One-sided noise sampling）——将探索限制在分布的一侧，防止发散
最优正确路径首 token 选择（Optimal correct-path first-token selection）——在所有正确路径中，选择首 token 与模型表示最匹配的那条，避免在无效状态上取平均

数字

三项关键基准：

基准	方法	提升
GSM8K-Aug（低难度数学）	Latent-GRPO vs 基线	+7.86 Pass@1 分
AIME（高难度数学）	Latent-GRPO vs 显式 GRPO	+4.27 分
推理链长度	Latent-GRPO vs 显式	缩短 3-4 倍

特别值得注意的是：提升在简单和困难任务上都出现，这表明 Latent-GRPO 并未以牺牲整体能力为代价换取局部改进。

为什么这件事重要？

当下”推理模型”的趋势（OpenAI o 系列、DeepSeek R 系列、Anthropic 扩展思考）表明：竞争力建立在长链推理能力之上。但每一次能力边界的推移都意味着更多 token，这直接冲击推理的成本方程——并限制了那些必须实时或大规模部署的应用场景。

如果 Latent-GRPO 的可复现性得到验证，那就意味着 同样水平的推理能力可以在 token 减少 3-4 倍的条件下达成——对于优化每任务成本（cost-per-task）的组织来说，这是一个强烈信号。另一项更深层的洞察是方法论层面的：这篇论文表明，把现有 RL 算法朴素地扩展到新的表示空间是行不通的，并给出了具体的修复方法论。这为下一代不以质量换取缩短的高效推理模型打开了空间。

常见问题

什么是潜在推理（latent reasoning）？

这是一种推理步骤不再以显式文本（chain-of-thought）形式书写、而是被压缩为连续向量表示的方法。目标是在保持解决复杂问题能力的同时，显著缩短推理链的长度。

为什么直接应用 GRPO 在潜在空间中行不通？

三个原因：(1) 无界探索导致的无效潜在状态偏离了模型正常工作的流形；(2) 奖励信号无法与单个 token 更新对齐；(3) 对多条有效路径取平均会产生不属于其中任何一条的无效平均状态。Latent-GRPO 针对每个问题都采取了有针对性的干预措施。

结果有多显著？

在 GSM8K-Aug 基准上 Pass@1 比基线高出 7.86 分，在 AIME（高难度数学）上比显式 GRPO 高出 4.27 分。关键在于这些提升是在推理链长度缩短 3-4 倍的条件下取得的——这对推理成本有直接影响。

Latent-GRPO：面向潜在推理的稳定 RL 优化——GSM8K-Aug 上提升 7.86 分、AIME 上提升 4.27 分，推理链长度缩短 3-4 倍

他们要解决什么问题？

直接应用 GRPO 的三个根本性问题

Latent-GRPO 如何逐一解决？

数字

为什么这件事重要？

常见问题

来源

相关新闻