ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja
Zašto je bitno
Sequence-Level PPO reformulira LLM reasoning kao kontekstualni bandit problem, postižući performanse skupih grupnih metoda poput GRPO uz dramatično manje resursa — bez multi-samplinga.
Problem s token-level PPO
Standard PPO (Proximal Policy Optimization) je središnji algoritam za alignment LLM-ova na reasoning zadacima s provjerljivim nagradama. Međutim, token-level PPO se muči s dva problema:
- Nestabilnost kreditne dodjele — preko dugih Chain-of-Thought (CoT) lanaca, dodjela zasluga pojedinačnim tokenima postaje nestabilna
- Prohibitivni memorijski troškovi — value model zahtijeva značajne resurse
Alternative bez kritičara poput GRPO ublažavaju ove probleme, ali zahtijevaju višestruko uzorkovanje za procjenu baseline-a, što drastično ograničava throughput treniranja.
SPPO — najbolje od oba svijeta
Tim (Wang, Li, Li, Chen, Huang i dr.) uvodi Sequence-Level PPO (SPPO) koji reformulira reasoning proces kao Sequence-Level Contextual Bandit problem.
Ključna inovacija: odvojena skalarna value funkcija koja daje signale niske varijance bez potrebe za multi-samplingom.
Rezultati
Na matematičkim benchmarkovima SPPO:
- Značajno nadmašuje standardni token-level PPO
- Postiže performanse računski skupih grupnih metoda (GRPO)
- Dramatično efikasniji — nema overhead multi-samplinga
Za istraživače koji treniraju reasoning modele, SPPO nudi praktičnu alternativu: performanse GRPO uz troškove bliže standardnom PPO.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
NVIDIA i Siemens Healthineers: NV-Raw2Insights-US uči direktno iz raw ultrasound signala i korigira sliku u real-timeu
arXiv:2604.21764: 'Thinking with Reasoning Skills' smanjuje broj reasoning tokena uz veću točnost na ACL 2026 Industry Tracku
Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja