🤖 24 AI
🟡 🏥 实践应用 2026年4月20日星期一 · 2 分钟阅读

AgentV-RL引入工具增强验证器与前向和后向智能体——4B模型超越SOTA奖励模型25.2%

编辑插图:两个AI验证智能体——一个向前看,一个向后看——分析推理链

为什么重要

AgentV-RL是一个通过使用多轮工具增强审议的智能体验证器来扩展奖励建模的新框架。两个互补智能体——前向(从前提到结论)和后向(从结论到前提)——验证推理过程。通过主动探索的RL训练,4B参数变体在测试时超越最先进的结果奖励模型25.2%。

为什么需要新的奖励建模方法?

奖励模型是LLM强化学习训练的基础——从RLHF到新的RLVR方法。但经典的结果奖励模型(ORM)有局限性:只评估最终答案,不理解过程。逐步跟踪推理的过程奖励模型(PRM)更好,但训练成本高,往往过于严格。

Jiazheng Zhang等作者在2026年4月17日的arXiv预印本中提出了AgentV-RL ——一个像智能体一样工作的验证器:多轮、使用工具、在做出评估前审议。

智能体验证器如何工作?

AgentV-RL使用两个互补智能体

前向智能体。 从前提到结论跟踪推理。对每一步检查:它是否来自前面的步骤?有据可查吗?如果它使用了一个事实,该事实是否有效?前向智能体捕获”逻辑跳跃”或”无根据的声明”类型的错误。

后向智能体。 沿相反方向——从结论到前提。问:前提真的是必要的吗?结论真的是一个后果,还是预先决定的?后向智能体捕获”逆向工程”类型的错误——模型知道结果并编造理由。

两个方向不是冗余的——它们捕获在不同类型问题中出现的不同错误类别。

工具和主动探索的作用

AgentV-RL不只是两个LLM——验证器可以访问工具

  • 代码执行器 — 验证数学计算或编程声明
  • 知识查询 — 查验可在外部知识库中验证的事实
  • 符号求解器 — 解决有确定性答案的逻辑或代数推断

通过主动探索的RL训练,验证器学习何时使用哪个工具——不是总是调用所有工具,而是根据问题类型选择。这是与只读取文本的被动PRM的关键区别。

结果如何?

摘要中最令人印象深刻的数字:4B参数的AgentV-RL超越SOTA结果奖励模型25.2%。在以单位百分比衡量进步的领域,这是很大的差距。

作者还展示了测试时扩展 — 给验证器更多审议时间时性能提升。这在实践中很重要,因为这意味着成本随问题复杂性扩展——简单案例快速完成,困难的获得更多思考。

对强化学习训练的启示

对于通过RL(RLHF、RLVR、DPO风格)训练LLM的团队,信息是验证组件可以是智能体式的,而不仅仅是静态模型。这打开了通往以下目标的大门:

  • 更好的数学、代码、推理任务过程奖励建模
  • 工具增强训练信号 — 代码执行信号是确定性的,减少RL循环中的噪声
  • 减少奖励黑客攻击 — 带有前向+后向和工具的智能体验证器比只读文本的普通ORM更难欺骗

这项工作与当前RLVR研究浪潮(带可验证奖励的RL)直接相关,因为它显示验证器质量极大地改变了训练结果。结合之前RLVR游戏验证器研究(4月19日)的批评,AgentV-RL可以被视为回应 — 如何构建更难欺骗的验证器。

🤖

本文由人工智能基于一手来源生成。