Latent-GRPO:面向潜在推理的稳定 RL 优化——GSM8K-Aug 上提升 7.86 分、AIME 上提升 4.27 分,推理链长度缩短 3-4 倍
研究人员提出 Latent-GRPO,一种针对潜在推理(推理步骤被压缩为连续表示)的稳定化 RL 方法。他们识别出在潜在空间中直接应用 GRPO 的三个根本性问题——无效潜在状态、奖励信号与 token 更新之间的错位、以及无效的平均状态——并通过无效样本优势屏蔽、单边噪声采样和最优正确路径首 token 选择的组合加以解决。结果:GSM8K-Aug 上 Pass@1 提升 7.86 分,AIME 上提升 4.27 分,推理链长度缩短 3-4 倍。