순방향 에이전트와 역방향 에이전트는 각각 무엇을 합니까?

순방향 에이전트는 전제에서 결론으로 추론을 추적합니다——각 단계가 이전 단계에 근거하여 정당화되는지 확인합니다. 역방향 에이전트는 반대 방향으로 진행합니다——결론이 실제로 전제의 결과인지, 아니면 전제가 미리 결정된 답을 정당화하기 위해 사후에 선택된 것인지 확인합니다. 두 방향은 서로 다른 오류 클래스를 포착합니다.

보상 모델링에 도구 사용이 필요한 이유는 무엇입니까?

고전적 보상 모델은 텍스트만 보고 점수를 줍니다. 도구 증강 검증기는 코드를 실행하고, 지식 베이스에서 사실을 확인하고, 기호 솔버를 실행할 수 있습니다——주장을 확률적으로만 평가하는 것이 아니라 구체적으로 검증합니다. 수학이나 프로그래밍 문제에서 차이는 크며, 도구가 결정론적 답을 제공할 수 있기 때문입니다.

'4B 모델이 SOTA를 25.2% 초과'한다는 것은 무슨 의미입니까?

저자들은 AgentV-RL의 4B 파라미터 변형을 최고의 결과 보상 모델(보통 심의 없이 최종 답만 봄)과 비교했습니다. 보상 모델링 벤치마크에서 AgentV-RL은 25.2% 더 높은 이득을 달성합니다——검증이 더 정확하고 솔루션 정확도와 더 잘 상관된다는 의미입니다.

AgentV-RL：도구 증강 검증기, SOTA 대비 +25.2%

왜 보상 모델링에 새로운 접근이 필요합니까?

보상 모델은 LLM의 RL 훈련의 기반입니다——RLHF에서 새로운 RLVR 접근 방식까지. 하지만 고전적 결과 보상 모델(ORM)에는 한계가 있습니다. 최종 답만 평가하고 과정을 이해하지 못합니다. 추론의 각 단계를 추적하는 과정 보상 모델(PRM)이 더 낫지만 훈련 비용이 높고 종종 너무 엄격합니다.

Jiazheng Zhang 등 저자들은 2026년 4월 17일 arXiv 프리프린트에서 AgentV-RL을 소개합니다——에이전트처럼 작동하는 검증기: 멀티턴, 도구 사용, 평가를 내리기 전에 심의합니다.

에이전트 검증기는 어떻게 작동합니까?

AgentV-RL은 두 가지 상호 보완적 에이전트를 사용합니다.

순방향 에이전트. 전제에서 결론으로 추론을 추적합니다. 각 단계에 대해 확인합니다: 이전 단계에서 이어지는가? 정당화되어 있는가? 사실을 사용한다면 그 사실은 유효한가? 순방향 에이전트는 “논리적 비약” 또는 “근거 없는 주장” 유형의 오류를 포착합니다.

역방향 에이전트. 반대 방향으로——결론에서 전제로 진행합니다. 묻습니다: 전제가 정말 필요한가? 결론이 정말 결과인가, 아니면 미리 결정된 것인가? 역방향 에이전트는 “역공학” 유형의 오류를 포착합니다——모델이 결과를 알고 정당화를 만들어내는 경우입니다.

두 방향은 중복되지 않습니다 ——서로 다른 유형의 문제에서 나타나는 서로 다른 오류 클래스를 포착합니다.

도구와 능동적 탐색의 역할

AgentV-RL은 단순한 두 개의 LLM이 아닙니다——검증기는 도구에 접근할 수 있습니다.

코드 실행기 — 수학적 계산이나 프로그래밍 주장 검증
지식 조회 — 외부 지식 베이스에서 확인 가능한 사실 확인
기호 솔버 — 결정론적 답이 있는 논리적 또는 대수적 추론

능동적 탐색을 통한 RL 훈련으로 검증기는 어떤 도구를 언제 사용할지 학습합니다——항상 모든 도구를 호출하는 것이 아니라 문제 유형에 따라 선택합니다. 이것이 텍스트만 읽는 수동적 PRM과의 핵심 차이입니다.

결과는 어떻습니까?

초록에서 가장 인상적인 숫자: 4B 파라미터 AgentV-RL이 SOTA 결과 보상 모델을 25.2% 초과합니다. 진보가 단위 퍼센트로 측정되는 이 분야에서 이것은 큰 차이입니다.

저자들은 테스트 시 스케일링도 보여줍니다——검증기에 더 많은 심의 시간을 주면 성능이 향상됩니다. 이것은 실제로 중요합니다. 비용이 문제 복잡도에 따라 확장됨을 의미합니다——간단한 경우는 빠르게 끝나고, 어려운 것은 더 많은 추론을 얻습니다.

RL 훈련에 대한 시사점

RL(RLHF, RLVR, DPO 스타일)로 LLM을 훈련하는 팀에 대한 메시지는 검증 구성 요소가 에이전트식일 수 있다는 것입니다. 단순한 정적 모델만이 아닙니다. 이것은 다음 목표로 향하는 문을 열어줍니다.

수학, 코드, 추론 작업을 위한 더 나은 과정 보상 모델링
도구 증강 훈련 신호 — 코드 실행 신호는 결정론적이어서 RL 루프의 노이즈를 줄입니다
보상 해킹 감소 — 순방향+역방향과 도구를 갖춘 에이전트 검증기는 텍스트만 읽는 일반 ORM보다 속이기 어렵습니다

이 연구는 현재 RLVR 연구 흐름(검증 가능한 보상을 통한 RL)과 직접 관련이 있으며, 검증기 품질이 훈련 결과를 크게 바꾼다는 것을 보여줍니다. 4월 19일 RLVR 게이밍 검증기 연구에 대한 이전 비판과 결합하면, AgentV-RL은 답변으로 볼 수 있습니다——속이기 더 어려운 검증기를 어떻게 구축할 것인가.

AgentV-RL이 도구 증강 검증기와 순방향·역방향 에이전트 도입——4B 모델이 SOTA 보상 모델을 25.2% 초과 달성

왜 보상 모델링에 새로운 접근이 필요합니까?

에이전트 검증기는 어떻게 작동합니까?

도구와 능동적 탐색의 역할

결과는 어떻습니까?

RL 훈련에 대한 시사점

출처

관련 뉴스