Latent-GRPO: stabilna RL optimizacija za latent reasoning — 7,86 boda na GSM8K-Aug i 4,27 boda na AIME uz 3-4× kraće reasoning chain-ove
Istraživači predstavljaju Latent-GRPO, stabilizirani RL pristup za latent reasoning gdje se reasoning koraci komprimiraju u kontinuirane reprezentacije. Identificiraju tri fundamentalna problema direktnog GRPO u latent prostoru — invalid latent states, misalignment između reward signala i token update-a, te invalid averaged states — i rješavaju ih kombinacijom invalid-sample advantage maskinga, one-sided noise samplinga i optimal correct-path first-token selekcije. Rezultati: +7,86 Pass@1 na GSM8K-Aug i +4,27 boda na AIME, uz 3-4× kraće reasoning chain-ove.
Tim istraživača (Jingcheng Deng, Zihao Wei, Liang Pang, Junhong Wu, Shicheng Xu, Zenghao Duan, Huawei Shen) objavio je 30. travnja 2026. rad koji rješava jedan od ključnih problema u modernom rezoniranju jezičnih modela — stabilnost reinforcement learning-a u latentnom prostoru.
Što je problem koji rješavaju?
Većina današnjih reasoning modela koristi eksplicitni chain-of-thought — generiraju dug tekst u kojem opisuju korake do rješenja. Pristup je djelotvoran ali skup: dugi chain-ovi znače mnogo tokena, što izravno povećava cijenu i latentnost.
Latent reasoning je alternativa: reasoning koraci se komprimiraju u kontinuirane vektorske reprezentacije unutar modela, bez verbalizacije. Time se chain dramatično skraćuje. Problem je što tradicionalni RL algoritmi tipa GRPO ne rade dobro u tom prostoru.
Tri fundamentalna problema direktnog GRPO
Autori identificiraju tri strukturna problema koja čine direktnu primjenu GRPO na latent reasoning nestabilnom:
- Invalid latent states — neograničena eksploracija RL-a vodi van manifolda na kojem model normalno operira; reprezentacije postaju “smećavna”.
- Reward-token misalignment — reward signal pripada cijeloj sekvenci, ali update se primjenjuje na pojedinačne tokene; bez intervencije, gradijent ide u krivom smjeru.
- Invalid averaged states — kad više valjanih putanja vodi do točnog odgovora, njihovo usrednjavanje proizvodi reprezentaciju koja ne pripada ni jednoj od njih.
Kako Latent-GRPO rješava svaki problem?
Svaki od tri problema rješava se ciljanom intervencijom:
- Invalid-sample advantage masking — primjeri koji izlaze iz manifolda dobivaju nula advantage, čime se gradijent na njima poništava
- One-sided noise sampling — eksploracija se ograničava na jednu stranu distribucije, sprječavajući divergenciju
- Optimal correct-path first-token selection — od svih correct putanja bira se ona čiji se prvi token najbolje poklapa s reprezentacijom modela, izbjegavajući usrednjavanje invalid state-a
Brojke
Tri ključna mjerila:
| Benchmark | Pristup | Gain |
|---|---|---|
| GSM8K-Aug (low-difficulty matematika) | Latent-GRPO vs baseline | +7,86 Pass@1 boda |
| AIME (high-difficulty matematika) | Latent-GRPO vs eksplicitni GRPO | +4,27 boda |
| Reasoning chain dužina | Latent-GRPO vs eksplicitni | 3-4× kraći |
Ono što je posebno relevantno je da se gainovi javljaju i na lakim i na teškim zadacima, što sugerira da Latent-GRPO ne trguje generalnom sposobnosti za uska poboljšanja.
Zašto je ovo važno?
Trenutni “reasoning model” trend (OpenAI o-serija, DeepSeek R-serija, Anthropic extended thinking) pokazuje da se kompetitivnost gradi na sposobnosti dugog rezoniranja. Ali svako pomicanje granice znači više tokena, što izravno udara u troškovnu jednadžbu inference-a — i ograničava primjene koje moraju biti realtime ili masovne.
Ako Latent-GRPO dokaže reproducibilnost, to znači da se ista razina rezoniranja može postići uz 3-4× manje tokena — što je za organizacije koje optimiziraju cost-per-task velik signal. Drugi, dublji uvid je metodološki: rad pokazuje da naivna ekstenzija postojećih RL algoritama na nove reprezentacijske prostore ne radi, i daje konkretnu metodologiju za to što treba popraviti. Time otvara prostor za sljedeću generaciju efikasnih reasoning modela koji ne trguju kvalitetom za skraćivanje.
Česta pitanja
- Što je latent reasoning?
- Pristup gdje se reasoning koraci ne pišu kao eksplicitni tekst (chain-of-thought), nego se komprimiraju u kontinuirane vektorske reprezentacije. Cilj je značajno skratiti dužinu reasoning chain-a uz održavanje sposobnosti rješavanja kompleksnih problema.
- Zašto direktni GRPO ne radi u latent prostoru?
- Tri razloga: (1) invalid latent states zbog neograničene eksploracije izlaze iz manifolda na kojem model normalno radi; (2) reward signal ne poravnava se s pojedinačnim token update-ima; (3) usrednjavanje više valjanih putanja proizvodi invalid averaged state. Latent-GRPO svaki problem rješava ciljanom intervencijom.
- Koliko su rezultati značajni?
- Na GSM8K-Aug benchmarku +7,86 Pass@1 boda iznad baseline-a, na AIME (high-difficulty matematika) +4,27 boda iznad eksplicitnog GRPO. Ključno je što su ovi gainovi postignuti uz 3-4× kraće reasoning chain-ove, što ima izravne troškovne implikacije za inference.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
KellyBench: AI agenti upravljali kladioničarskim bankrollom u Premier Ligi — svi vodeći modeli izgubili novac
GitHub povlači GPT-5.2 i GPT-5.2-Codex iz Copilota 1. lipnja 2026. — migracija na GPT-5.5 i GPT-5.3-Codex
NIST CAISI evaluacija DeepSeek V4 Pro: 8 mjeseci zaostatka za frontier US modelima na 9 benchmarka u 5 domena