AgentV-RL: tool-augmented verifikator, +25.2 % SOTA

AgentV-RL je novi okvir za scaling reward modelinga kroz agentni verifikator koji koristi multi-turn tool-augmented deliberaciju. Dva komplementarna agenta — forward (od premisa prema zaključku) i backward (od zaključka prema premisama) — validiraju rezoniranje. Kroz RL s proaktivnom eksploracijom, 4B varijanta nadmašuje state-of-the-art outcome reward modele za 25.2 %.

Zašto novi pristup reward modelingu?

Reward modeli su temelj RL treniranja za LLM-ove — od RLHF do novih RLVR pristupa. Ali klasični outcome reward modeli (ORM) imaju ograničenje: procjenjuju samo finalni odgovor, bez razumijevanja procesa. Process reward modeli (PRM) koji prate svaki korak rezoniranja su bolji, ali skupo se treniraju i često su previše strogi.

Autori Jiazheng Zhang i kolege u arXiv preprintu od 17. travnja 2026. predstavljaju AgentV-RL — verifikator koji radi kao agent: multi-turn, koristi alate, deliberira prije nego donese procjenu.

Kako funkcionira agentic verifier?

AgentV-RL koristi dva komplementarna agenta:

Forward agent. Prati rezoniranje od premisa prema zaključku. Za svaki korak provjerava: slijedi li iz prethodnih koraka? Je li opravdano? Ako koristi činjenicu, je li činjenica valjana? Forward agent hvata greške tipa “skok u logici” ili “neutemeljena tvrdnja”.

Backward agent. Ide u obrnutom smjeru — od zaključka prema premisama. Pita: su li premise zbilja potrebne? Je li zaključak stvarno posljedica, ili je unaprijed odlučen? Backward agent hvata greške tipa “reverse engineering” — gdje model zna rezultat i fabricira opravdanje.

Dva smjera nisu redundantna — hvataju različite klase grešaka koje se pojavljuju u različitim tipovima problema.

Uloga alata i proaktivne eksploracije

AgentV-RL nije samo dva LLM-a — verifikator ima pristup alatima:

Code executor — za provjeru matematičkih izračuna ili programerskih tvrdnji
Knowledge lookup — za činjenice koje se mogu provjeriti u vanjskoj bazi
Symbolic solver — za logičke ili algebarske zaključke gdje postoji deterministički odgovor

Kroz RL s proaktivnom eksploracijom, verifikator uči kad koristiti koji alat — ne zove sve alate uvijek, nego bira na temelju tipa problema. To je ključna razlika od pasivnih PRM-ova koji samo čitaju tekst.

Kakvi su rezultati?

Najimpresivnija brojka iz abstracta: 4B model AgentV-RL nadmašuje SOTA outcome reward modele za 25.2 %. To je velika razlika u polju gdje se pomaci mjere u jediničnim postocima.

Autori također pokazuju test-time scaling — performance raste kad se verifikatoru da više deliberacijskog vremena. To je praktično važno jer znači da se troškovi skaliraju s kompleksnošću problema — jednostavni slučajevi brzo završe, teški dobivaju više razmišljanja.

Implikacije za RL trening

Za timove koji treniraju LLM-ove kroz RL (RLHF, RLVR, DPO-style), poruka je da verifikacijska komponenta može biti agentic, ne samo statički model. To otvara vrata ka:

Boljem process reward modelingu za matematiku, code, reasoning tasks
Tool-augmented training signals — signal iz code execution-a je deterministički, smanjuje noise u RL loop-u
Smanjenju reward hackinga — agentic verifier s forward+backward i alatima je teže prevariti od plain ORM-a koji samo čita tekst

Rad je direktno relevantan za trenutni val RLVR istraživanja (RL s verifiable rewards) jer pokazuje da kvaliteta verifikatora drastično mijenja rezultate treniranja. Kombiniran s prethodnom kritikom iz RLVR Gaming Verifiers studije (19. travnja), AgentV-RL se može gledati kao odgovor — kako izgraditi verifikator koji je teže izigrati.

Česta pitanja

Što radi forward, a što backward agent?

Forward agent prati rezoniranje od premisa prema zaključku — provjerava je li svaki korak opravdan na temelju prethodnih. Backward agent ide u obrnutom smjeru — provjerava je li zaključak stvarno posljedica navedenih premisa, ili su možda premise birane post-hoc da bi opravdale unaprijed odlučen odgovor. Dva smjera hvataju različite klase grešaka.

Zašto tool-use u reward modelingu?

Klasični reward model samo gleda tekst i daje score. Tool-augmented verifikator može izvršiti kod, provjeriti fakte u bazi znanja, pokrenuti symbolic solver — konkretno provjeriti tvrdnje umjesto da ih procjenjuje samo probabilistički. Kod matematičkih ili programerskih problema razlika je velika jer tool može dati deterministički odgovor.

Što znači '4B model nadmašuje SOTA za 25.2 %'?

Autori su usporedili AgentV-RL u 4B parametarskoj varijanti protiv najboljih outcome reward modela (koji obično gledaju samo finalni odgovor bez deliberacije). Na benchmarku za reward modeling, AgentV-RL postiže 25.2 % veći gain — što znači da je verifikacija preciznija i bolje korelira s točnošću rješenja.

AgentV-RL donosi tool-augmented verifikator s forward i backward agentima — 4B model nadmašuje SOTA reward model za 25.2 %