arXiv:2606.20008: VIMPO — pojačano učenje bez kritičara pobjeđuje GRPO na MATH-500 i AIME
VIMPO je nova metoda pojačanog učenja za LLM rezoniranje koja iz KL-regulariziranog RL izvodi implicitnu funkciju vrijednosti — bez zasebne mreže kritičara. Nadmašuje GRPO na četiri matematička benchmarka uključujući AIME 2024 i AIME 2025, a prednosti ostaju stabilne i pod šumovitim uvjetima nagrade.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je VIMPO i zašto je važan
VIMPO (Value-Implicit Policy Optimization) je metoda pojačanog učenja (RL) za treniranje LLM modela u zadacima rezoniranja. Razvili su je istraživači s UC Berkeleya (Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song, Xuandong Zhao) i objavili 19. lipnja 2026.
Polazišni problem: popularna metoda GRPO pati od slabog pripisivanja zasluga (credit assignment) — ne razlikuje dobro koji je korak u nizu razmišljanja doprinio ispravnom odgovoru. Standardno rješenje je dodati zasebnu critic mrežu, ali to komplicira treniranje i povećava troškove.
Kako funkcionira: implicitna vrijednosna funkcija
VIMPO ne trenira critic mrežu. Umjesto toga, iz uvjeta optimalnosti KL-regulariziranog RL matematički izvodi funkciju vrijednosti koja je implicitno sadržana u samoj politici modela. Time dobiva signal za pripisivanje zasluga bez dodatne komponente.
Rezultat je metoda koja zadržava praktičnu jednostavnost critic-free treniranja (sličnu GRPO-u), ali ispravlja njegov temeljni nedostatak.
Rezultati: konzistentno bolje od GRPO
VIMPO nadmašuje GRPO na sva četiri testirana benchmarka:
- MATH-500 — standardni matematički skup
- AIME 2024 i AIME 2025 — teška natjecateljska matematika
- OlympiadBench — olimpijadski zadaci
Poboljšanja su konzistentna i ostaju stabilna čak i uz šumovite signal nagrade — važna osobina u realnim primjenama gdje je automatsko ocjenjivanje nesavršeno.
Značaj za razvoj reasoning modela
VIMPO nudi praktičan put do boljeg RL treniranja reasoning modela bez arhitekturalne složenosti dvomrežnih sustava. Metoda je posebno relevantna za istraživačke grupe koje rade s ograničenim računalnim resursima jer eliminira potrebu za paralelnim treniranjem critic komponente.
Česta pitanja
- Čime se VIMPO razlikuje od GRPO?
- GRPO ima problem pripisivanja zasluga (credit assignment) jer sve korake u nizu tretira jednako. VIMPO to rješava uvođenjem „value-implicit” funkcije vrijednosti izvedene izravno iz uvjeta optimalnosti KL-regulariziranog RL — bez da trenira posebnu critic mrežu.
- Na kojim benchmarkima je VIMPO testiran?
- Na četiri matematička benchmarka: MATH-500, AIME 2024, AIME 2025 i OlympiadBench. Na svima pokazuje konzistentno bolje rezultate od GRPO, uključujući scenarije sa šumovitim signalom nagrade.
- Tko stoji iza VIMPO-a?
- Autori su Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song i Xuandong Zhao s UC Berkeleya. Rad je predan 18. lipnja i objavljen 19. lipnja 2026.
Izvori
Povezane vijesti
arXiv:2606.20560: DiffusionGemma jednako čitljiv kao Gemma 4 — praznina od 28,6× srušena na 1,1×
arXiv:2606.20543: Prostorno spekulativno dekodiranje ubrzava generiranje slika 13,3×
arXiv:2606.20561: TimeProVe smanjuje troškove zaključivanja nad dugim videozapisima za 93%