AgentV-RL donosi tool-augmented verifikator s forward i backward agentima — 4B model nadmašuje SOTA reward model za 25.2 %
Zašto je bitno
AgentV-RL je novi okvir za scaling reward modelinga kroz agentni verifikator koji koristi multi-turn tool-augmented deliberaciju. Dva komplementarna agenta — forward (od premisa prema zaključku) i backward (od zaključka prema premisama) — validiraju rezoniranje. Kroz RL s proaktivnom eksploracijom, 4B varijanta nadmašuje state-of-the-art outcome reward modele za 25.2 %.
Zašto novi pristup reward modelingu?
Reward modeli su temelj RL treniranja za LLM-ove — od RLHF do novih RLVR pristupa. Ali klasični outcome reward modeli (ORM) imaju ograničenje: procjenjuju samo finalni odgovor, bez razumijevanja procesa. Process reward modeli (PRM) koji prate svaki korak rezoniranja su bolji, ali skupo se treniraju i često su previše strogi.
Autori Jiazheng Zhang i kolege u arXiv preprintu od 17. travnja 2026. predstavljaju AgentV-RL — verifikator koji radi kao agent: multi-turn, koristi alate, deliberira prije nego donese procjenu.
Kako funkcionira agentic verifier?
AgentV-RL koristi dva komplementarna agenta:
Forward agent. Prati rezoniranje od premisa prema zaključku. Za svaki korak provjerava: slijedi li iz prethodnih koraka? Je li opravdano? Ako koristi činjenicu, je li činjenica valjana? Forward agent hvata greške tipa “skok u logici” ili “neutemeljena tvrdnja”.
Backward agent. Ide u obrnutom smjeru — od zaključka prema premisama. Pita: su li premise zbilja potrebne? Je li zaključak stvarno posljedica, ili je unaprijed odlučen? Backward agent hvata greške tipa “reverse engineering” — gdje model zna rezultat i fabricira opravdanje.
Dva smjera nisu redundantna — hvataju različite klase grešaka koje se pojavljuju u različitim tipovima problema.
Uloga alata i proaktivne eksploracije
AgentV-RL nije samo dva LLM-a — verifikator ima pristup alatima:
- Code executor — za provjeru matematičkih izračuna ili programerskih tvrdnji
- Knowledge lookup — za činjenice koje se mogu provjeriti u vanjskoj bazi
- Symbolic solver — za logičke ili algebarske zaključke gdje postoji deterministički odgovor
Kroz RL s proaktivnom eksploracijom, verifikator uči kad koristiti koji alat — ne zove sve alate uvijek, nego bira na temelju tipa problema. To je ključna razlika od pasivnih PRM-ova koji samo čitaju tekst.
Kakvi su rezultati?
Najimpresivnija brojka iz abstracta: 4B model AgentV-RL nadmašuje SOTA outcome reward modele za 25.2 %. To je velika razlika u polju gdje se pomaci mjere u jediničnim postocima.
Autori također pokazuju test-time scaling — performance raste kad se verifikatoru da više deliberacijskog vremena. To je praktično važno jer znači da se troškovi skaliraju s kompleksnošću problema — jednostavni slučajevi brzo završe, teški dobivaju više razmišljanja.
Implikacije za RL trening
Za timove koji treniraju LLM-ove kroz RL (RLHF, RLVR, DPO-style), poruka je da verifikacijska komponenta može biti agentic, ne samo statički model. To otvara vrata ka:
- Boljem process reward modelingu za matematiku, code, reasoning tasks
- Tool-augmented training signals — signal iz code execution-a je deterministički, smanjuje noise u RL loop-u
- Smanjenju reward hackinga — agentic verifier s forward+backward i alatima je teže prevariti od plain ORM-a koji samo čita tekst
Rad je direktno relevantan za trenutni val RLVR istraživanja (RL s verifiable rewards) jer pokazuje da kvaliteta verifikatora drastično mijenja rezultate treniranja. Kombiniran s prethodnom kritikom iz RLVR Gaming Verifiers studije (19. travnja), AgentV-RL se može gledati kao odgovor — kako izgraditi verifikator koji je teže izigrati.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic i NEC grade Japanovu najveću AI inženjersku radnu snagu — Claude za 30.000 NEC zaposlenika
AWS: multimodalni biološki foundation modeli ubrzavaju otkrivanje lijekova za 50 posto i dijagnostiku za 90 posto
CNCF: infrastrukturni inženjer migrirao 60+ Kubernetes resursa za 30 minuta uz pomoć AI agenta