Latent-GRPO: stabilan RL za latent reasoning

Istraživači predstavljaju Latent-GRPO, stabilizirani RL pristup za latent reasoning gdje se reasoning koraci komprimiraju u kontinuirane reprezentacije. Identificiraju tri fundamentalna problema direktnog GRPO u latent prostoru — invalid latent states, misalignment između reward signala i token update-a, te invalid averaged states — i rješavaju ih kombinacijom invalid-sample advantage maskinga, one-sided noise samplinga i optimal correct-path first-token selekcije. Rezultati: +7,86 Pass@1 na GSM8K-Aug i +4,27 boda na AIME, uz 3-4× kraće reasoning chain-ove.

Tim istraživača (Jingcheng Deng, Zihao Wei, Liang Pang, Junhong Wu, Shicheng Xu, Zenghao Duan, Huawei Shen) objavio je 30. travnja 2026. rad koji rješava jedan od ključnih problema u modernom rezoniranju jezičnih modela — stabilnost reinforcement learning-a u latentnom prostoru.

Što je problem koji rješavaju?

Većina današnjih reasoning modela koristi eksplicitni chain-of-thought — generiraju dug tekst u kojem opisuju korake do rješenja. Pristup je djelotvoran ali skup: dugi chain-ovi znače mnogo tokena, što izravno povećava cijenu i latentnost.

Latent reasoning je alternativa: reasoning koraci se komprimiraju u kontinuirane vektorske reprezentacije unutar modela, bez verbalizacije. Time se chain dramatično skraćuje. Problem je što tradicionalni RL algoritmi tipa GRPO ne rade dobro u tom prostoru.

Tri fundamentalna problema direktnog GRPO

Autori identificiraju tri strukturna problema koja čine direktnu primjenu GRPO na latent reasoning nestabilnom:

Invalid latent states — neograničena eksploracija RL-a vodi van manifolda na kojem model normalno operira; reprezentacije postaju “smećavna”.
Reward-token misalignment — reward signal pripada cijeloj sekvenci, ali update se primjenjuje na pojedinačne tokene; bez intervencije, gradijent ide u krivom smjeru.
Invalid averaged states — kad više valjanih putanja vodi do točnog odgovora, njihovo usrednjavanje proizvodi reprezentaciju koja ne pripada ni jednoj od njih.

Kako Latent-GRPO rješava svaki problem?

Svaki od tri problema rješava se ciljanom intervencijom:

Invalid-sample advantage masking — primjeri koji izlaze iz manifolda dobivaju nula advantage, čime se gradijent na njima poništava
One-sided noise sampling — eksploracija se ograničava na jednu stranu distribucije, sprječavajući divergenciju
Optimal correct-path first-token selection — od svih correct putanja bira se ona čiji se prvi token najbolje poklapa s reprezentacijom modela, izbjegavajući usrednjavanje invalid state-a

Brojke

Tri ključna mjerila:

Benchmark	Pristup	Gain
GSM8K-Aug (low-difficulty matematika)	Latent-GRPO vs baseline	+7,86 Pass@1 boda
AIME (high-difficulty matematika)	Latent-GRPO vs eksplicitni GRPO	+4,27 boda
Reasoning chain dužina	Latent-GRPO vs eksplicitni	3-4× kraći

Ono što je posebno relevantno je da se gainovi javljaju i na lakim i na teškim zadacima, što sugerira da Latent-GRPO ne trguje generalnom sposobnosti za uska poboljšanja.

Zašto je ovo važno?

Trenutni “reasoning model” trend (OpenAI o-serija, DeepSeek R-serija, Anthropic extended thinking) pokazuje da se kompetitivnost gradi na sposobnosti dugog rezoniranja. Ali svako pomicanje granice znači više tokena, što izravno udara u troškovnu jednadžbu inference-a — i ograničava primjene koje moraju biti realtime ili masovne.

Ako Latent-GRPO dokaže reproducibilnost, to znači da se ista razina rezoniranja može postići uz 3-4× manje tokena — što je za organizacije koje optimiziraju cost-per-task velik signal. Drugi, dublji uvid je metodološki: rad pokazuje da naivna ekstenzija postojećih RL algoritama na nove reprezentacijske prostore ne radi, i daje konkretnu metodologiju za to što treba popraviti. Time otvara prostor za sljedeću generaciju efikasnih reasoning modela koji ne trguju kvalitetom za skraćivanje.

Česta pitanja

Što je latent reasoning?

Pristup gdje se reasoning koraci ne pišu kao eksplicitni tekst (chain-of-thought), nego se komprimiraju u kontinuirane vektorske reprezentacije. Cilj je značajno skratiti dužinu reasoning chain-a uz održavanje sposobnosti rješavanja kompleksnih problema.

Zašto direktni GRPO ne radi u latent prostoru?

Tri razloga: (1) invalid latent states zbog neograničene eksploracije izlaze iz manifolda na kojem model normalno radi; (2) reward signal ne poravnava se s pojedinačnim token update-ima; (3) usrednjavanje više valjanih putanja proizvodi invalid averaged state. Latent-GRPO svaki problem rješava ciljanom intervencijom.

Koliko su rezultati značajni?

Na GSM8K-Aug benchmarku +7,86 Pass@1 boda iznad baseline-a, na AIME (high-difficulty matematika) +4,27 boda iznad eksplicitnog GRPO. Ključno je što su ovi gainovi postignuti uz 3-4× kraće reasoning chain-ove, što ima izravne troškovne implikacije za inference.

Latent-GRPO: stabilna RL optimizacija za latent reasoning — 7,86 boda na GSM8K-Aug i 4,27 boda na AIME uz 3-4× kraće reasoning chain-ove