前向智能体和后向智能体分别做什么？

前向智能体从前提到结论跟踪推理——检查每一步是否基于前面的步骤有据可查。后向智能体沿相反方向——检查结论是否真的是前提的后果，或者前提是否是事后选择来为预先决定的答案辩护。两个方向捕获不同类别的错误。

为什么奖励建模需要工具使用？

经典奖励模型只看文本并给出分数。工具增强验证器可以执行代码、在知识库中查验事实、运行符号求解器——具体验证声明，而不是仅仅概率性地评估它们。对于数学或编程问题，差异很大，因为工具可以给出确定性答案。

作者将4B参数变体的AgentV-RL与最佳结果奖励模型（通常只看最终答案而不审议）进行比较。在奖励建模基准上，AgentV-RL实现了25.2%更高的增益——意味着验证更精确，与解决方案准确性的相关性更好。

奖励模型是LLM强化学习训练的基础——从RLHF到新的RLVR方法。但经典的结果奖励模型（ORM）有局限性：只评估最终答案，不理解过程。逐步跟踪推理的过程奖励模型（PRM）更好，但训练成本高，往往过于严格。

Jiazheng Zhang等作者在2026年4月17日的arXiv预印本中提出了AgentV-RL ——一个像智能体一样工作的验证器：多轮、使用工具、在做出评估前审议。

AgentV-RL使用两个互补智能体：

前向智能体。 从前提到结论跟踪推理。对每一步检查：它是否来自前面的步骤？有据可查吗？如果它使用了一个事实，该事实是否有效？前向智能体捕获”逻辑跳跃”或”无根据的声明”类型的错误。

后向智能体。 沿相反方向——从结论到前提。问：前提真的是必要的吗？结论真的是一个后果，还是预先决定的？后向智能体捕获”逆向工程”类型的错误——模型知道结果并编造理由。

两个方向不是冗余的——它们捕获在不同类型问题中出现的不同错误类别。

AgentV-RL不只是两个LLM——验证器可以访问工具：

通过主动探索的RL训练，验证器学习何时使用哪个工具——不是总是调用所有工具，而是根据问题类型选择。这是与只读取文本的被动PRM的关键区别。

摘要中最令人印象深刻的数字：4B参数的AgentV-RL超越SOTA结果奖励模型25.2%。在以单位百分比衡量进步的领域，这是很大的差距。

作者还展示了测试时扩展 — 给验证器更多审议时间时性能提升。这在实践中很重要，因为这意味着成本随问题复杂性扩展——简单案例快速完成，困难的获得更多思考。

对于通过RL（RLHF、RLVR、DPO风格）训练LLM的团队，信息是验证组件可以是智能体式的，而不仅仅是静态模型。这打开了通往以下目标的大门：

这项工作与当前RLVR研究浪潮（带可验证奖励的RL）直接相关，因为它显示验证器质量极大地改变了训练结果。结合之前RLVR游戏验证器研究（4月19日）的批评，AgentV-RL可以被视为回应 — 如何构建更难欺骗的验证器。