🟡 🏥 实践应用 发布于: · 2 分钟阅读 ·

AgentV-RL引入工具增强验证器与前向和后向智能体——4B模型超越SOTA奖励模型25.2%

编辑插图:两个AI验证智能体——一个向前看,一个向后看——分析推理链

AgentV-RL是一个通过使用多轮工具增强审议的智能体验证器来扩展奖励建模的新框架。两个互补智能体——前向(从前提到结论)和后向(从结论到前提)——验证推理过程。通过主动探索的RL训练,4B参数变体在测试时超越最先进的结果奖励模型25.2%。

🤖

本文由人工智能基于一手来源生成。

为什么需要新的奖励建模方法?

奖励模型是LLM强化学习训练的基础——从RLHF到新的RLVR方法。但经典的结果奖励模型(ORM)有局限性:只评估最终答案,不理解过程。逐步跟踪推理的过程奖励模型(PRM)更好,但训练成本高,往往过于严格。

Jiazheng Zhang等作者在2026年4月17日的arXiv预印本中提出了AgentV-RL ——一个像智能体一样工作的验证器:多轮、使用工具、在做出评估前审议。

智能体验证器如何工作?

AgentV-RL使用两个互补智能体

前向智能体。 从前提到结论跟踪推理。对每一步检查:它是否来自前面的步骤?有据可查吗?如果它使用了一个事实,该事实是否有效?前向智能体捕获”逻辑跳跃”或”无根据的声明”类型的错误。

后向智能体。 沿相反方向——从结论到前提。问:前提真的是必要的吗?结论真的是一个后果,还是预先决定的?后向智能体捕获”逆向工程”类型的错误——模型知道结果并编造理由。

两个方向不是冗余的——它们捕获在不同类型问题中出现的不同错误类别。

工具和主动探索的作用

AgentV-RL不只是两个LLM——验证器可以访问工具

  • 代码执行器 — 验证数学计算或编程声明
  • 知识查询 — 查验可在外部知识库中验证的事实
  • 符号求解器 — 解决有确定性答案的逻辑或代数推断

通过主动探索的RL训练,验证器学习何时使用哪个工具——不是总是调用所有工具,而是根据问题类型选择。这是与只读取文本的被动PRM的关键区别。

结果如何?

摘要中最令人印象深刻的数字:4B参数的AgentV-RL超越SOTA结果奖励模型25.2%。在以单位百分比衡量进步的领域,这是很大的差距。

作者还展示了测试时扩展 — 给验证器更多审议时间时性能提升。这在实践中很重要,因为这意味着成本随问题复杂性扩展——简单案例快速完成,困难的获得更多思考。

对强化学习训练的启示

对于通过RL(RLHF、RLVR、DPO风格)训练LLM的团队,信息是验证组件可以是智能体式的,而不仅仅是静态模型。这打开了通往以下目标的大门:

  • 更好的数学、代码、推理任务过程奖励建模
  • 工具增强训练信号 — 代码执行信号是确定性的,减少RL循环中的噪声
  • 减少奖励黑客攻击 — 带有前向+后向和工具的智能体验证器比只读文本的普通ORM更难欺骗

这项工作与当前RLVR研究浪潮(带可验证奖励的RL)直接相关,因为它显示验证器质量极大地改变了训练结果。结合之前RLVR游戏验证器研究(4月19日)的批评,AgentV-RL可以被视为回应 — 如何构建更难欺骗的验证器。

常见问题

前向智能体和后向智能体分别做什么?
前向智能体从前提到结论跟踪推理——检查每一步是否基于前面的步骤有据可查。后向智能体沿相反方向——检查结论是否真的是前提的后果,或者前提是否是事后选择来为预先决定的答案辩护。两个方向捕获不同类别的错误。
为什么奖励建模需要工具使用?
经典奖励模型只看文本并给出分数。工具增强验证器可以执行代码、在知识库中查验事实、运行符号求解器——具体验证声明,而不是仅仅概率性地评估它们。对于数学或编程问题,差异很大,因为工具可以给出确定性答案。
'4B模型超越SOTA 25.2%'是什么意思?
作者将4B参数变体的AgentV-RL与最佳结果奖励模型(通常只看最终答案而不审议)进行比较。在奖励建模基准上,AgentV-RL实现了25.2%更高的增益——意味着验证更精确,与解决方案准确性的相关性更好。