VIMPO：无评论家RL在AIME上超越GRPO

VIMPO是一种面向LLM推理的新型强化学习方法，从KL正则化RL中推导出隐式价值函数，无需独立的评论家网络。在包括AIME 2024和AIME 2025在内的四个数学基准测试上超越GRPO，且在噪声奖励条件下优势依然稳定。

什么是VIMPO，为何重要

VIMPO（Value-Implicit Policy Optimization，隐式价值策略优化）是一种用于训练LLM模型完成推理任务的强化学习（RL）方法。由加州大学伯克利分校的研究人员（Zhewei Kang、Aosong Feng、Sergey Levine、Dawn Song、Xuandong Zhao）开发，于2026年6月19日发布。

问题起点：流行方法GRPO存在信用分配薄弱的缺陷——它无法很好地区分推理链中哪个步骤对正确答案有贡献。标准解决方案是添加独立的评论家网络，但这会使训练复杂化并增加成本。

工作原理：隐式价值函数

VIMPO不训练评论家网络。相反，它从KL正则化RL的最优性条件中数学推导出一个价值函数——该函数隐式包含在模型策略本身中。由此获得信用分配信号，无需任何额外组件。

结果是一种既保留了无评论家训练的实用简洁性（类似GRPO），又纠正其根本缺陷的方法。

结果：一致优于GRPO

VIMPO在四个测试基准上均超越GRPO：

MATH-500 — 标准数学基准
AIME 2024和AIME 2025 — 高难度竞赛数学
OlympiadBench — 奥林匹克竞赛题目

改进结果一致，即使在奖励信号嘈杂的情况下依然保持稳定——这在自动评分不完善的实际应用中是重要特性。

对推理模型发展的意义

VIMPO为推理模型提供了一条无需双网络架构复杂性的更好RL训练之路。该方法对计算资源有限的研究团队尤为重要，因为它消除了并行训练评论家组件的需求。

常见问题

VIMPO与GRPO有何不同？

GRPO存在信用分配问题，因为它对推理链中的所有步骤一视同仁。VIMPO通过引入直接从KL正则化RL最优性条件推导出的「隐式价值」函数来解决这一问题，无需训练单独的评论家网络。

VIMPO在哪些基准测试上进行了测试？

在四个数学基准测试上：MATH-500、AIME 2024、AIME 2025和OlympiadBench。在所有测试中，VIMPO均一致优于GRPO，包括奖励信号嘈杂的场景。

VIMPO背后是谁？

作者为来自加州大学伯克利分校的Zhewei Kang、Aosong Feng、Sergey Levine、Dawn Song和Xuandong Zhao。论文于6月18日提交，2026年6月19日发布。

arXiv:2606.20008: VIMPO — 无评论家强化学习在MATH-500和AIME上超越GRPO

什么是VIMPO，为何重要

工作原理：隐式价值函数

结果：一致优于GRPO

对推理模型发展的意义

常见问题

来源

相关新闻