VIMPO: RL bez kritičara nadmašuje GRPO na AIME

VIMPO je nova metoda pojačanog učenja za LLM rezoniranje koja iz KL-regulariziranog RL izvodi implicitnu funkciju vrijednosti — bez zasebne mreže kritičara. Nadmašuje GRPO na četiri matematička benchmarka uključujući AIME 2024 i AIME 2025, a prednosti ostaju stabilne i pod šumovitim uvjetima nagrade.

Što je VIMPO i zašto je važan

VIMPO (Value-Implicit Policy Optimization) je metoda pojačanog učenja (RL) za treniranje LLM modela u zadacima rezoniranja. Razvili su je istraživači s UC Berkeleya (Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song, Xuandong Zhao) i objavili 19. lipnja 2026.

Polazišni problem: popularna metoda GRPO pati od slabog pripisivanja zasluga (credit assignment) — ne razlikuje dobro koji je korak u nizu razmišljanja doprinio ispravnom odgovoru. Standardno rješenje je dodati zasebnu critic mrežu, ali to komplicira treniranje i povećava troškove.

Kako funkcionira: implicitna vrijednosna funkcija

VIMPO ne trenira critic mrežu. Umjesto toga, iz uvjeta optimalnosti KL-regulariziranog RL matematički izvodi funkciju vrijednosti koja je implicitno sadržana u samoj politici modela. Time dobiva signal za pripisivanje zasluga bez dodatne komponente.

Rezultat je metoda koja zadržava praktičnu jednostavnost critic-free treniranja (sličnu GRPO-u), ali ispravlja njegov temeljni nedostatak.

Rezultati: konzistentno bolje od GRPO

VIMPO nadmašuje GRPO na sva četiri testirana benchmarka:

MATH-500 — standardni matematički skup
AIME 2024 i AIME 2025 — teška natjecateljska matematika
OlympiadBench — olimpijadski zadaci

Poboljšanja su konzistentna i ostaju stabilna čak i uz šumovite signal nagrade — važna osobina u realnim primjenama gdje je automatsko ocjenjivanje nesavršeno.

Značaj za razvoj reasoning modela

VIMPO nudi praktičan put do boljeg RL treniranja reasoning modela bez arhitekturalne složenosti dvomrežnih sustava. Metoda je posebno relevantna za istraživačke grupe koje rade s ograničenim računalnim resursima jer eliminira potrebu za paralelnim treniranjem critic komponente.

Česta pitanja

Čime se VIMPO razlikuje od GRPO?

GRPO ima problem pripisivanja zasluga (credit assignment) jer sve korake u nizu tretira jednako. VIMPO to rješava uvođenjem „value-implicit” funkcije vrijednosti izvedene izravno iz uvjeta optimalnosti KL-regulariziranog RL — bez da trenira posebnu critic mrežu.

Na kojim benchmarkima je VIMPO testiran?

Na četiri matematička benchmarka: MATH-500, AIME 2024, AIME 2025 i OlympiadBench. Na svima pokazuje konzistentno bolje rezultate od GRPO, uključujući scenarije sa šumovitim signalom nagrade.

Tko stoji iza VIMPO-a?

Autori su Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song i Xuandong Zhao s UC Berkeleya. Rad je predan 18. lipnja i objavljen 19. lipnja 2026.

arXiv:2606.20008: VIMPO — pojačano učenje bez kritičara pobjeđuje GRPO na MATH-500 i AIME

Što je VIMPO i zašto je važan

Kako funkcionira: implicitna vrijednosna funkcija

Rezultati: konzistentno bolje od GRPO

Značaj za razvoj reasoning modela

Česta pitanja

Izvori

Povezane vijesti