🟡 🤖 模型 2026年5月2日星期六 · 2 分钟阅读 ·

Latent-GRPO:面向潜在推理的稳定 RL 优化——GSM8K-Aug 上提升 7.86 分、AIME 上提升 4.27 分,推理链长度缩短 3-4 倍

Editorial illustration: kompresija mreže rezoniranja u sažeti latentni prostor

研究人员提出 Latent-GRPO,一种针对潜在推理(推理步骤被压缩为连续表示)的稳定化 RL 方法。他们识别出在潜在空间中直接应用 GRPO 的三个根本性问题——无效潜在状态、奖励信号与 token 更新之间的错位、以及无效的平均状态——并通过无效样本优势屏蔽、单边噪声采样和最优正确路径首 token 选择的组合加以解决。结果:GSM8K-Aug 上 Pass@1 提升 7.86 分,AIME 上提升 4.27 分,推理链长度缩短 3-4 倍。

Jingcheng Deng、Zihao Wei、Liang Pang、Junhong Wu、Shicheng Xu、Zenghao Duan、Huawei Shen 组成的研究团队于 2026 年 4 月 30 日发布了一篇论文,解决了现代语言模型推理中的一个关键问题——潜在空间中强化学习的稳定性

他们要解决什么问题?

如今大多数推理模型使用显式的思维链(chain-of-thought)——生成一长段描述解题步骤的文本。这种方法有效但代价高昂:长链意味着更多 token,直接推高成本与延迟。

潜在推理(latent reasoning) 是一种替代方案:推理步骤被压缩为模型内部的连续向量表示,无需显式表达,从而大幅缩短推理链。问题是:传统的 RL 算法(如 GRPO)在该空间中表现不佳。

直接应用 GRPO 的三个根本性问题

作者识别出使 GRPO 直接应用于潜在推理变得不稳定的 三个结构性问题

  1. 无效潜在状态(Invalid latent states)——RL 的无界探索会偏离模型正常运作的流形;表示变成”垃圾”。
  2. 奖励-token 错位(Reward-token misalignment)——奖励信号属于整个序列,但更新却施加在单个 token 上;缺乏干预时,梯度方向是错误的。
  3. 无效平均状态(Invalid averaged states)——当多条有效路径都通向正确答案时,对它们取平均会产生不属于其中任何一条的表示。

Latent-GRPO 如何逐一解决?

每个问题都通过有针对性的干预加以解决:

  • 无效样本优势屏蔽(Invalid-sample advantage masking)——偏离流形的样本被赋予零优势值,从而消除其上的梯度
  • 单边噪声采样(One-sided noise sampling)——将探索限制在分布的一侧,防止发散
  • 最优正确路径首 token 选择(Optimal correct-path first-token selection)——在所有正确路径中,选择首 token 与模型表示最匹配的那条,避免在无效状态上取平均

数字

三项关键基准:

基准方法提升
GSM8K-Aug(低难度数学)Latent-GRPO vs 基线+7.86 Pass@1 分
AIME(高难度数学)Latent-GRPO vs 显式 GRPO+4.27 分
推理链长度Latent-GRPO vs 显式缩短 3-4 倍

特别值得注意的是:提升在简单和困难任务上都出现,这表明 Latent-GRPO 并未以牺牲整体能力为代价换取局部改进。

为什么这件事重要?

当下”推理模型”的趋势(OpenAI o 系列、DeepSeek R 系列、Anthropic 扩展思考)表明:竞争力建立在长链推理能力之上。但每一次能力边界的推移都意味着更多 token,这直接冲击推理的成本方程——并限制了那些必须实时或大规模部署的应用场景。

如果 Latent-GRPO 的可复现性得到验证,那就意味着 同样水平的推理能力可以在 token 减少 3-4 倍的条件下达成——对于优化每任务成本(cost-per-task)的组织来说,这是一个强烈信号。另一项更深层的洞察是方法论层面的:这篇论文表明,把现有 RL 算法朴素地扩展到新的表示空间是行不通的,并给出了具体的修复方法论。这为下一代不以质量换取缩短的高效推理模型打开了空间。

常见问题

什么是潜在推理(latent reasoning)?
这是一种推理步骤不再以显式文本(chain-of-thought)形式书写、而是被压缩为连续向量表示的方法。目标是在保持解决复杂问题能力的同时,显著缩短推理链的长度。
为什么直接应用 GRPO 在潜在空间中行不通?
三个原因:(1) 无界探索导致的无效潜在状态偏离了模型正常工作的流形;(2) 奖励信号无法与单个 token 更新对齐;(3) 对多条有效路径取平均会产生不属于其中任何一条的无效平均状态。Latent-GRPO 针对每个问题都采取了有针对性的干预措施。
结果有多显著?
在 GSM8K-Aug 基准上 Pass@1 比基线高出 7.86 分,在 AIME(高难度数学)上比显式 GRPO 高出 4.27 分。关键在于这些提升是在推理链长度缩短 3-4 倍的条件下取得的——这对推理成本有直接影响。
🤖

本文由人工智能基于一手来源生成。