ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja
Zašto je bitno
Sequence-Level PPO reformulira LLM reasoning kao kontekstualni bandit problem, postižući performanse skupih grupnih metoda poput GRPO uz dramatično manje resursa — bez multi-samplinga.
Problem s token-level PPO
Standard PPO (Proximal Policy Optimization) je središnji algoritam za alignment LLM-ova na reasoning zadacima s provjerljivim nagradama. Međutim, token-level PPO se muči s dva problema:
- Nestabilnost kreditne dodjele — preko dugih Chain-of-Thought (CoT) lanaca, dodjela zasluga pojedinačnim tokenima postaje nestabilna
- Prohibitivni memorijski troškovi — value model zahtijeva značajne resurse
Alternative bez kritičara poput GRPO ublažavaju ove probleme, ali zahtijevaju višestruko uzorkovanje za procjenu baseline-a, što drastično ograničava throughput treniranja.
SPPO — najbolje od oba svijeta
Tim (Wang, Li, Li, Chen, Huang i dr.) uvodi Sequence-Level PPO (SPPO) koji reformulira reasoning proces kao Sequence-Level Contextual Bandit problem.
Ključna inovacija: odvojena skalarna value funkcija koja daje signale niske varijance bez potrebe za multi-samplingom.
Rezultati
Na matematičkim benchmarkovima SPPO:
- Značajno nadmašuje standardni token-level PPO
- Postiže performanse računski skupih grupnih metoda (GRPO)
- Dramatično efikasniji — nema overhead multi-samplinga
Za istraživače koji treniraju reasoning modele, SPPO nudi praktičnu alternativu: performanse GRPO uz troškove bliže standardnom PPO.
Povezane vijesti
ArXiv: Process Reward Agents — real-time feedback poboljšava AI zaključivanje u medicini bez retraininga
ArXiv PRA: 4B model postiže 80.8% na medicinskom benchmarku — novi SOTA za malu skalu
ArXiv SUPERNOVA: reinforcement learning na prirodnim instrukcijama poboljšava razmišljanje za 52.8%