前向きエージェントと後ろ向きエージェントはそれぞれ何をしますか？

前向きエージェントは前提から結論へ推論を追跡します——各ステップが前のステップに基づいて正当化されているかチェックします。後ろ向きエージェントは逆方向に進みます——結論が本当に前提の帰結であるか、それとも前提が事後的に予め決められた答えを正当化するために選ばれたかをチェックします。2つの方向は異なるクラスのエラーを捕捉します。

報酬モデリングにツール使用が必要なのはなぜですか？

古典的な報酬モデルはテキストを見るだけでスコアを付けます。ツール拡張ベリファイアはコードを実行し、知識ベースでファクトを確認し、シンボリックソルバーを実行できます——主張を確率的にのみ評価するのではなく、具体的に検証します。数学やプログラミングの問題では、ツールが確定的な答えを出せるため、違いは大きいです。

'4Bモデルが最先端を25.2%上回る'とはどういう意味ですか？

著者らはAgentV-RLの4Bパラメータバリアントを最高のアウトカム報酬モデル（通常、審議なしで最終答えだけを見る）と比較しました。報酬モデリングベンチマークで、AgentV-RLは25.2%高いゲインを達成します——検証がより正確で、解の精度とのより良い相関を意味します。

AgentV-RL：ツール拡張ベリファイア、最先端を25.2%上回る

なぜ報酬モデリングへの新しいアプローチが必要なのですか？

報酬モデルはLLMのRL訓練の基礎です——RLHFから新しいRLVRアプローチまで。しかし古典的なアウトカム報酬モデル（ORM）には制限があります。最終答えだけを評価し、プロセスを理解しません。推論の各ステップを追う過程報酬モデル（PRM）はより良いですが、訓練コストが高く、しばしば厳しすぎます。

Jiazheng Zhangらの著者らは、2026年4月17日のarXivプレプリントでAgentV-RLを紹介しています——エージェントとして機能するベリファイア：マルチターン、ツールを使用し、評価を下す前に審議します。

エージェントベリファイアはどのように機能しますか？

AgentV-RLは2つの相補的エージェントを使用します。

前向きエージェント。 前提から結論へ推論を追跡します。各ステップについて確認します：前のステップから続いているか？正当化されているか？事実を使用している場合、その事実は有効か？前向きエージェントは「論理の飛躍」または「根拠のない主張」タイプのエラーを捉えます。

後ろ向きエージェント。 逆方向に進みます——結論から前提へ。問います：前提は本当に必要か？結論は本当に帰結か、それとも予め決められているか？後ろ向きエージェントは「逆エンジニアリング」タイプのエラーを捉えます——モデルが結果を知っていて正当化を作り上げる場合です。

2つの方向は冗長ではありません ——異なる種類の問題に現れる異なるクラスのエラーを捉えます。

ツールと積極的探索の役割

AgentV-RLは単なる2つのLLMではありません——ベリファイアはツールにアクセスできます。

コードエグゼキューター — 数学的計算やプログラミングの主張の検証
知識ルックアップ — 外部知識ベースで確認できる事実のチェック
シンボリックソルバー — 確定的な答えが存在する論理的または代数的推論

積極的探索を伴うRLにより、ベリファイアはどのツールをいつ使うかを学習します——常にすべてのツールを呼ぶのではなく、問題の種類に基づいて選択します。これがテキストを読むだけの受動的PRMとの重要な違いです。

結果はどうですか？

アブストラクトからの最も印象的な数字：4BモデルのAgentV-RLが最先端アウトカム報酬モデルを25.2%上回ります。進歩が単位パーセントで測られるこの分野では、これは大きな差です。

著者らはテスト時スケーリングも示しています——ベリファイアに審議時間をより多く与えるとパフォーマンスが向上します。これは実際に重要で、コストが問題の複雑さに合わせてスケールすることを意味します——単純なケースは素早く終わり、難しいケースはより多くの思考を得ます。

RL訓練への示唆

RL（RLHF、RLVR、DPOスタイル）でLLMを訓練するチームへのメッセージは、検証コンポーネントはエージェント的であり得るということです。静的なモデルだけではありません。これにより次の目標への道が開かれます。

数学、コード、推論タスクのためのより良い過程報酬モデリング
ツール拡張訓練シグナル — コード実行からのシグナルは確定的で、RLループのノイズを減らします
報酬ハッキングの低減 — 前向き+後ろ向きとツールを持つエージェントベリファイアは、テキストだけを読む普通のORMより騙しにくいです

この研究は現在のRLVR研究の波（検証可能な報酬を持つRL）と直接関連しており、ベリファイアの品質が訓練結果を劇的に変えることを示しています。4月19日のRLVRゲーミングベリファイア研究への以前の批判と組み合わせると、AgentV-RLは回答として見ることができます——欺きにくいベリファイアをどう構築するか。

AgentV-RLがツール拡張ベリファイアと前向き・後ろ向きエージェントを導入——4Bモデルが最先端報酬モデルを25.2%上回る

なぜ報酬モデリングへの新しいアプローチが必要なのですか？

エージェントベリファイアはどのように機能しますか？

ツールと積極的探索の役割

結果はどうですか？

RL訓練への示唆

出典

関連ニュース