ArXiv SPPO: PPO auf Sequenzebene loest das Credit-Assignment-Problem in langen Denkketten

Sequence-Level PPO formuliert LLM-Reasoning als kontextuelles Bandit-Problem um und erreicht die Leistung teurer Gruppenmethoden wie GRPO mit dramatisch weniger Ressourcen — ohne Multi-Sampling.

Das Problem mit Token-Level PPO

Standard-PPO (Proximal Policy Optimization) ist der zentrale Algorithmus fuer das Alignment von LLMs bei Reasoning-Aufgaben mit verifizierbaren Belohnungen. Allerdings kaempft Token-Level PPO mit zwei Problemen:

Instabilitaet der Kreditvergabe — ueber lange Chain-of-Thought (CoT)-Ketten wird die Zuordnung von Verdiensten zu einzelnen Tokens instabil
Prohibitive Speicherkosten — das Value-Modell erfordert erhebliche Ressourcen

Kritiker-freie Alternativen wie GRPO mildern diese Probleme, erfordern aber mehrfaches Sampling zur Schaetzung der Baseline, was den Trainingsdurchsatz drastisch einschraenkt.

SPPO — das Beste aus beiden Welten

Das Team (Wang, Li, Li, Chen, Huang u.a.) fuehrt Sequence-Level PPO (SPPO) ein, das den Reasoning-Prozess als Sequence-Level Contextual Bandit-Problem reformuliert.

Zentrale Innovation: eine separate skalare Value-Funktion, die varianzarme Signale ohne Multi-Sampling liefert.

Ergebnisse

Auf mathematischen Benchmarks erreicht SPPO:

Deutlich bessere Ergebnisse als Standard-Token-Level-PPO
Die Leistung rechnerisch teurer Gruppenmethoden (GRPO)
Dramatisch effizienter — kein Multi-Sampling-Overhead

Fuer Forscher, die Reasoning-Modelle trainieren, bietet SPPO eine praktische Alternative: GRPO-Leistung zu Kosten, die naeher am Standard-PPO liegen.

ArXiv SPPO: PPO auf Sequenzebene loest das Credit-Assignment-Problem in langen Denkketten

Das Problem mit Token-Level PPO

SPPO — das Beste aus beiden Welten

Ergebnisse

Quellen

Verwandte Nachrichten