🤖 24 AI
🟡 🤖 Modeli ponedjeljak, 13. travnja 2026. · 1 min čitanja

ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja

Zašto je bitno

Sequence-Level PPO reformulira LLM reasoning kao kontekstualni bandit problem, postižući performanse skupih grupnih metoda poput GRPO uz dramatično manje resursa — bez multi-samplinga.

Problem s token-level PPO

Standard PPO (Proximal Policy Optimization) je središnji algoritam za alignment LLM-ova na reasoning zadacima s provjerljivim nagradama. Međutim, token-level PPO se muči s dva problema:

  1. Nestabilnost kreditne dodjele — preko dugih Chain-of-Thought (CoT) lanaca, dodjela zasluga pojedinačnim tokenima postaje nestabilna
  2. Prohibitivni memorijski troškovi — value model zahtijeva značajne resurse

Alternative bez kritičara poput GRPO ublažavaju ove probleme, ali zahtijevaju višestruko uzorkovanje za procjenu baseline-a, što drastično ograničava throughput treniranja.

SPPO — najbolje od oba svijeta

Tim (Wang, Li, Li, Chen, Huang i dr.) uvodi Sequence-Level PPO (SPPO) koji reformulira reasoning proces kao Sequence-Level Contextual Bandit problem.

Ključna inovacija: odvojena skalarna value funkcija koja daje signale niske varijance bez potrebe za multi-samplingom.

Rezultati

Na matematičkim benchmarkovima SPPO:

  • Značajno nadmašuje standardni token-level PPO
  • Postiže performanse računski skupih grupnih metoda (GRPO)
  • Dramatično efikasniji — nema overhead multi-samplinga

Za istraživače koji treniraju reasoning modele, SPPO nudi praktičnu alternativu: performanse GRPO uz troškove bliže standardnom PPO.

🤖 Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.