🟢 🤖 模型 发布于: · 1 分钟阅读 ·

arXiv:2606.20008: VIMPO — 无评论家强化学习在MATH-500和AIME上超越GRPO

arXiv:2606.20008 ↗

编辑插图:VIMPO——无评论家强化学习在MATH-500和AIME上超越GRPO

VIMPO是一种面向LLM推理的新型强化学习方法,从KL正则化RL中推导出隐式价值函数,无需独立的评论家网络。在包括AIME 2024和AIME 2025在内的四个数学基准测试上超越GRPO,且在噪声奖励条件下优势依然稳定。

🤖

本文由人工智能基于一手来源生成。

什么是VIMPO,为何重要

VIMPO(Value-Implicit Policy Optimization,隐式价值策略优化)是一种用于训练LLM模型完成推理任务的强化学习(RL)方法。由加州大学伯克利分校的研究人员(Zhewei Kang、Aosong Feng、Sergey Levine、Dawn Song、Xuandong Zhao)开发,于2026年6月19日发布。

问题起点:流行方法GRPO存在信用分配薄弱的缺陷——它无法很好地区分推理链中哪个步骤对正确答案有贡献。标准解决方案是添加独立的评论家网络,但这会使训练复杂化并增加成本。

工作原理:隐式价值函数

VIMPO不训练评论家网络。相反,它从KL正则化RL的最优性条件中数学推导出一个价值函数——该函数隐式包含在模型策略本身中。由此获得信用分配信号,无需任何额外组件。

结果是一种既保留了无评论家训练的实用简洁性(类似GRPO),又纠正其根本缺陷的方法。

结果:一致优于GRPO

VIMPO在四个测试基准上均超越GRPO:

  • MATH-500 — 标准数学基准
  • AIME 2024和AIME 2025 — 高难度竞赛数学
  • OlympiadBench — 奥林匹克竞赛题目

改进结果一致,即使在奖励信号嘈杂的情况下依然保持稳定——这在自动评分不完善的实际应用中是重要特性。

对推理模型发展的意义

VIMPO为推理模型提供了一条无需双网络架构复杂性的更好RL训练之路。该方法对计算资源有限的研究团队尤为重要,因为它消除了并行训练评论家组件的需求。

常见问题

VIMPO与GRPO有何不同?
GRPO存在信用分配问题,因为它对推理链中的所有步骤一视同仁。VIMPO通过引入直接从KL正则化RL最优性条件推导出的「隐式价值」函数来解决这一问题,无需训练单独的评论家网络。
VIMPO在哪些基准测试上进行了测试?
在四个数学基准测试上:MATH-500、AIME 2024、AIME 2025和OlympiadBench。在所有测试中,VIMPO均一致优于GRPO,包括奖励信号嘈杂的场景。
VIMPO背后是谁?
作者为来自加州大学伯克利分校的Zhewei Kang、Aosong Feng、Sergey Levine、Dawn Song和Xuandong Zhao。论文于6月18日提交,2026年6月19日发布。