ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja

Sequence-Level PPO reformulira LLM reasoning kao kontekstualni bandit problem, postižući performanse skupih grupnih metoda poput GRPO uz dramatično manje resursa — bez multi-samplinga.

Problem s token-level PPO

Standard PPO (Proximal Policy Optimization) je središnji algoritam za alignment LLM-ova na reasoning zadacima s provjerljivim nagradama. Međutim, token-level PPO se muči s dva problema:

Nestabilnost kreditne dodjele — preko dugih Chain-of-Thought (CoT) lanaca, dodjela zasluga pojedinačnim tokenima postaje nestabilna
Prohibitivni memorijski troškovi — value model zahtijeva značajne resurse

Alternative bez kritičara poput GRPO ublažavaju ove probleme, ali zahtijevaju višestruko uzorkovanje za procjenu baseline-a, što drastično ograničava throughput treniranja.

SPPO — najbolje od oba svijeta

Tim (Wang, Li, Li, Chen, Huang i dr.) uvodi Sequence-Level PPO (SPPO) koji reformulira reasoning proces kao Sequence-Level Contextual Bandit problem.

Ključna inovacija: odvojena skalarna value funkcija koja daje signale niske varijance bez potrebe za multi-samplingom.

Rezultati

Na matematičkim benchmarkovima SPPO:

Značajno nadmašuje standardni token-level PPO
Postiže performanse računski skupih grupnih metoda (GRPO)
Dramatično efikasniji — nema overhead multi-samplinga

Za istraživače koji treniraju reasoning modele, SPPO nudi praktičnu alternativu: performanse GRPO uz troškove bliže standardnom PPO.

ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja

Problem s token-level PPO

SPPO — najbolje od oba svijeta

Rezultati

Izvori

Povezane vijesti