AgentV-RL donosi tool-augmented verifikator s forward i backward agentima — 4B model nadmašuje SOTA reward model za 25.2 %
AgentV-RL je novi okvir za scaling reward modelinga kroz agentni verifikator koji koristi multi-turn tool-augmented deliberaciju. Dva komplementarna agenta — forward (od premisa prema zaključku) i backward (od zaključka prema premisama) — validiraju rezoniranje. Kroz RL s proaktivnom eksploracijom, 4B varijanta nadmašuje state-of-the-art outcome reward modele za 25.2 %.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Zašto novi pristup reward modelingu?
Reward modeli su temelj RL treniranja za LLM-ove — od RLHF do novih RLVR pristupa. Ali klasični outcome reward modeli (ORM) imaju ograničenje: procjenjuju samo finalni odgovor, bez razumijevanja procesa. Process reward modeli (PRM) koji prate svaki korak rezoniranja su bolji, ali skupo se treniraju i često su previše strogi.
Autori Jiazheng Zhang i kolege u arXiv preprintu od 17. travnja 2026. predstavljaju AgentV-RL — verifikator koji radi kao agent: multi-turn, koristi alate, deliberira prije nego donese procjenu.
Kako funkcionira agentic verifier?
AgentV-RL koristi dva komplementarna agenta:
Forward agent. Prati rezoniranje od premisa prema zaključku. Za svaki korak provjerava: slijedi li iz prethodnih koraka? Je li opravdano? Ako koristi činjenicu, je li činjenica valjana? Forward agent hvata greške tipa “skok u logici” ili “neutemeljena tvrdnja”.
Backward agent. Ide u obrnutom smjeru — od zaključka prema premisama. Pita: su li premise zbilja potrebne? Je li zaključak stvarno posljedica, ili je unaprijed odlučen? Backward agent hvata greške tipa “reverse engineering” — gdje model zna rezultat i fabricira opravdanje.
Dva smjera nisu redundantna — hvataju različite klase grešaka koje se pojavljuju u različitim tipovima problema.
Uloga alata i proaktivne eksploracije
AgentV-RL nije samo dva LLM-a — verifikator ima pristup alatima:
- Code executor — za provjeru matematičkih izračuna ili programerskih tvrdnji
- Knowledge lookup — za činjenice koje se mogu provjeriti u vanjskoj bazi
- Symbolic solver — za logičke ili algebarske zaključke gdje postoji deterministički odgovor
Kroz RL s proaktivnom eksploracijom, verifikator uči kad koristiti koji alat — ne zove sve alate uvijek, nego bira na temelju tipa problema. To je ključna razlika od pasivnih PRM-ova koji samo čitaju tekst.
Kakvi su rezultati?
Najimpresivnija brojka iz abstracta: 4B model AgentV-RL nadmašuje SOTA outcome reward modele za 25.2 %. To je velika razlika u polju gdje se pomaci mjere u jediničnim postocima.
Autori također pokazuju test-time scaling — performance raste kad se verifikatoru da više deliberacijskog vremena. To je praktično važno jer znači da se troškovi skaliraju s kompleksnošću problema — jednostavni slučajevi brzo završe, teški dobivaju više razmišljanja.
Implikacije za RL trening
Za timove koji treniraju LLM-ove kroz RL (RLHF, RLVR, DPO-style), poruka je da verifikacijska komponenta može biti agentic, ne samo statički model. To otvara vrata ka:
- Boljem process reward modelingu za matematiku, code, reasoning tasks
- Tool-augmented training signals — signal iz code execution-a je deterministički, smanjuje noise u RL loop-u
- Smanjenju reward hackinga — agentic verifier s forward+backward i alatima je teže prevariti od plain ORM-a koji samo čita tekst
Rad je direktno relevantan za trenutni val RLVR istraživanja (RL s verifiable rewards) jer pokazuje da kvaliteta verifikatora drastično mijenja rezultate treniranja. Kombiniran s prethodnom kritikom iz RLVR Gaming Verifiers studije (19. travnja), AgentV-RL se može gledati kao odgovor — kako izgraditi verifikator koji je teže izigrati.
Česta pitanja
- Što radi forward, a što backward agent?
- Forward agent prati rezoniranje od premisa prema zaključku — provjerava je li svaki korak opravdan na temelju prethodnih. Backward agent ide u obrnutom smjeru — provjerava je li zaključak stvarno posljedica navedenih premisa, ili su možda premise birane post-hoc da bi opravdale unaprijed odlučen odgovor. Dva smjera hvataju različite klase grešaka.
- Zašto tool-use u reward modelingu?
- Klasični reward model samo gleda tekst i daje score. Tool-augmented verifikator može izvršiti kod, provjeriti fakte u bazi znanja, pokrenuti symbolic solver — konkretno provjeriti tvrdnje umjesto da ih procjenjuje samo probabilistički. Kod matematičkih ili programerskih problema razlika je velika jer tool može dati deterministički odgovor.
- Što znači '4B model nadmašuje SOTA za 25.2 %'?
- Autori su usporedili AgentV-RL u 4B parametarskoj varijanti protiv najboljih outcome reward modela (koji obično gledaju samo finalni odgovor bez deliberacije). Na benchmarku za reward modeling, AgentV-RL postiže 25.2 % veći gain — što znači da je verifikacija preciznija i bolje korelira s točnošću rješenja.
Povezane vijesti
arXiv:2605.22681: CUSP benchmark pokazuje da frontier modeli ne mogu pouzdano predviđati znanstvene proboje
arXiv:2605.22337: Meta-Soft uvodi kompresiju KV cachea kroz composable meta-tokene i naučljive ortogonalne baze
arXiv:2605.22664: WorkstreamBench testira LLM agente na end-to-end spreadsheet zadacima u financijama i frontier modeli padaju