AgentV-RLがツール拡張ベリファイアと前向き・後ろ向きエージェントを導入——4Bモデルが最先端報酬モデルを25.2%上回る
なぜ重要か
AgentV-RLは、マルチターンのツール拡張審議を使用するエージェントベリファイアによって報酬モデリングをスケーリングする新しいフレームワークです。2つの相補的エージェント——前向き(前提から結論へ)と後ろ向き(結論から前提へ)——が推論を検証します。積極的探索を伴うRLにより、4Bバリアントは最先端アウトカム報酬モデルをテスト時スケーリングで25.2%上回ります。
なぜ報酬モデリングへの新しいアプローチが必要なのですか?
報酬モデルはLLMのRL訓練の基礎です——RLHFから新しいRLVRアプローチまで。しかし古典的なアウトカム報酬モデル(ORM)には制限があります。最終答えだけを評価し、プロセスを理解しません。推論の各ステップを追う過程報酬モデル(PRM)はより良いですが、訓練コストが高く、しばしば厳しすぎます。
Jiazheng Zhangらの著者らは、2026年4月17日のarXivプレプリントでAgentV-RLを紹介しています——エージェントとして機能するベリファイア:マルチターン、ツールを使用し、評価を下す前に審議します。
エージェントベリファイアはどのように機能しますか?
AgentV-RLは2つの相補的エージェントを使用します。
前向きエージェント。 前提から結論へ推論を追跡します。各ステップについて確認します:前のステップから続いているか?正当化されているか?事実を使用している場合、その事実は有効か?前向きエージェントは「論理の飛躍」または「根拠のない主張」タイプのエラーを捉えます。
後ろ向きエージェント。 逆方向に進みます——結論から前提へ。問います:前提は本当に必要か?結論は本当に帰結か、それとも予め決められているか?後ろ向きエージェントは「逆エンジニアリング」タイプのエラーを捉えます——モデルが結果を知っていて正当化を作り上げる場合です。
2つの方向は冗長ではありません ——異なる種類の問題に現れる異なるクラスのエラーを捉えます。
ツールと積極的探索の役割
AgentV-RLは単なる2つのLLMではありません——ベリファイアはツールにアクセスできます。
- コードエグゼキューター — 数学的計算やプログラミングの主張の検証
- 知識ルックアップ — 外部知識ベースで確認できる事実のチェック
- シンボリックソルバー — 確定的な答えが存在する論理的または代数的推論
積極的探索を伴うRLにより、ベリファイアはどのツールをいつ使うかを学習します——常にすべてのツールを呼ぶのではなく、問題の種類に基づいて選択します。これがテキストを読むだけの受動的PRMとの重要な違いです。
結果はどうですか?
アブストラクトからの最も印象的な数字:4BモデルのAgentV-RLが最先端アウトカム報酬モデルを25.2%上回ります。進歩が単位パーセントで測られるこの分野では、これは大きな差です。
著者らはテスト時スケーリングも示しています——ベリファイアに審議時間をより多く与えるとパフォーマンスが向上します。これは実際に重要で、コストが問題の複雑さに合わせてスケールすることを意味します——単純なケースは素早く終わり、難しいケースはより多くの思考を得ます。
RL訓練への示唆
RL(RLHF、RLVR、DPOスタイル)でLLMを訓練するチームへのメッセージは、検証コンポーネントはエージェント的であり得るということです。静的なモデルだけではありません。これにより次の目標への道が開かれます。
- 数学、コード、推論タスクのためのより良い過程報酬モデリング
- ツール拡張訓練シグナル — コード実行からのシグナルは確定的で、RLループのノイズを減らします
- 報酬ハッキングの低減 — 前向き+後ろ向きとツールを持つエージェントベリファイアは、テキストだけを読む普通のORMより騙しにくいです
この研究は現在のRLVR研究の波(検証可能な報酬を持つRL)と直接関連しており、ベリファイアの品質が訓練結果を劇的に変えることを示しています。4月19日のRLVRゲーミングベリファイア研究への以前の批判と組み合わせると、AgentV-RLは回答として見ることができます——欺きにくいベリファイアをどう構築するか。
この記事はAIにより一次情報源から生成されました。