🤖 24 AI
🟡 🤖 模型 2026年4月13日星期一 · 1 分钟阅读

ArXiv SPPO:序列级PPO解决了长推理链中的信用分配问题

为什么重要

序列级PPO将LLM推理重新表述为上下文老虎机问题,以远低于GRPO等昂贵的分组方法的资源消耗达到了同等性能——无需多次采样。

Token级PPO的问题

标准PPO(近端策略优化)是在具有可验证奖励的推理任务上对齐LLM的核心算法。然而,token级PPO面临两个问题:

  1. 信用分配不稳定——在长Chain-of-Thought(CoT)链中,将功劳分配给单个token变得不稳定
  2. 内存成本过高——价值模型需要大量资源

无评论者的替代方案如GRPO缓解了这些问题,但需要多次采样来估计基线,这大大限制了训练吞吐量。

SPPO——两全其美

研究团队(Wang、Li、Li、Chen、Huang等)引入了序列级PPO(SPPO),将推理过程重新表述为序列级上下文老虎机问题。

关键创新:分离的标量价值函数,提供低方差信号而无需多次采样。

结果

在数学基准测试中,SPPO:

  • 显著超越标准token级PPO
  • 达到计算密集型分组方法(GRPO)的同等性能
  • 效率大幅提升——无多次采样开销

对于训练推理模型的研究人员来说,SPPO提供了一个实用的替代方案:GRPO级别的性能,接近标准PPO的成本。

🤖 本文由人工智能基于一手来源生成。