ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja
Sequence-Level PPO reformulira LLM reasoning kao kontekstualni bandit problem, postižući performanse skupih grupnih metoda poput GRPO uz dramatično manje resursa — bez multi-samplinga.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Problem s token-level PPO
Standard PPO (Proximal Policy Optimization) je središnji algoritam za alignment LLM-ova na reasoning zadacima s provjerljivim nagradama. Međutim, token-level PPO se muči s dva problema:
- Nestabilnost kreditne dodjele — preko dugih Chain-of-Thought (CoT) lanaca, dodjela zasluga pojedinačnim tokenima postaje nestabilna
- Prohibitivni memorijski troškovi — value model zahtijeva značajne resurse
Alternative bez kritičara poput GRPO ublažavaju ove probleme, ali zahtijevaju višestruko uzorkovanje za procjenu baseline-a, što drastično ograničava throughput treniranja.
SPPO — najbolje od oba svijeta
Tim (Wang, Li, Li, Chen, Huang i dr.) uvodi Sequence-Level PPO (SPPO) koji reformulira reasoning proces kao Sequence-Level Contextual Bandit problem.
Ključna inovacija: odvojena skalarna value funkcija koja daje signale niske varijance bez potrebe za multi-samplingom.
Rezultati
Na matematičkim benchmarkovima SPPO:
- Značajno nadmašuje standardni token-level PPO
- Postiže performanse računski skupih grupnih metoda (GRPO)
- Dramatično efikasniji — nema overhead multi-samplinga
Za istraživače koji treniraju reasoning modele, SPPO nudi praktičnu alternativu: performanse GRPO uz troškove bliže standardnom PPO.
Povezane vijesti
arXiv:2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM modelima
Black Forest Labs: FLUX Erase nadmašuje GPT Image-2 (68.5%) i Finegrain (63.2%) u uklanjanju objekata bez prompta
arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova