全部 🤖 模型 🚀 创业公司 📦 开源 ⚖️ 监管 🤝 智能体 🔧 硬件 🏥 实践应用 💬 社区 🛡️ 安全 ✨ 趣闻

🟡 🤖 模型 2026年4月13日星期一 · 1 分钟阅读

ArXiv SPPO：序列级PPO解决了长推理链中的信用分配问题

为什么重要

序列级PPO将LLM推理重新表述为上下文老虎机问题，以远低于GRPO等昂贵的分组方法的资源消耗达到了同等性能——无需多次采样。

Token级PPO的问题

标准PPO（近端策略优化）是在具有可验证奖励的推理任务上对齐LLM的核心算法。然而，token级PPO面临两个问题：

信用分配不稳定——在长Chain-of-Thought（CoT）链中，将功劳分配给单个token变得不稳定
内存成本过高——价值模型需要大量资源

无评论者的替代方案如GRPO缓解了这些问题，但需要多次采样来估计基线，这大大限制了训练吞吐量。

SPPO——两全其美

研究团队（Wang、Li、Li、Chen、Huang等）引入了序列级PPO（SPPO），将推理过程重新表述为序列级上下文老虎机问题。

关键创新：分离的标量价值函数，提供低方差信号而无需多次采样。

结果

在数学基准测试中，SPPO：

显著超越标准token级PPO
达到计算密集型分组方法（GRPO）的同等性能
效率大幅提升——无多次采样开销

对于训练推理模型的研究人员来说，SPPO提供了一个实用的替代方案：GRPO级别的性能，接近标准PPO的成本。

🤖 本文由人工智能基于一手来源生成。

来源

ArXiv：SPPO——面向长程推理任务的序列级PPO ↗

分享: 𝕏 X in LinkedIn f Facebook

相关新闻

🟡 2026-04-14

ArXiv：过程奖励智能体——实时反馈无需重新训练即可改善AI医学推理

🟡 2026-04-13

ArXiv PRA：4B模型在医学基准测试中达到80.8%——小规模模型的新SOTA

🟡 2026-04-11

ArXiv SUPERNOVA：基于自然指令的强化学习将推理能力提升 52.8%

← 返回首页