ArXiv SPPO: PPO auf Sequenzebene loest das Credit-Assignment-Problem in langen Denkketten
Warum es wichtig ist
Sequence-Level PPO formuliert LLM-Reasoning als kontextuelles Bandit-Problem um und erreicht die Leistung teurer Gruppenmethoden wie GRPO mit dramatisch weniger Ressourcen — ohne Multi-Sampling.
Das Problem mit Token-Level PPO
Standard-PPO (Proximal Policy Optimization) ist der zentrale Algorithmus fuer das Alignment von LLMs bei Reasoning-Aufgaben mit verifizierbaren Belohnungen. Allerdings kaempft Token-Level PPO mit zwei Problemen:
- Instabilitaet der Kreditvergabe — ueber lange Chain-of-Thought (CoT)-Ketten wird die Zuordnung von Verdiensten zu einzelnen Tokens instabil
- Prohibitive Speicherkosten — das Value-Modell erfordert erhebliche Ressourcen
Kritiker-freie Alternativen wie GRPO mildern diese Probleme, erfordern aber mehrfaches Sampling zur Schaetzung der Baseline, was den Trainingsdurchsatz drastisch einschraenkt.
SPPO — das Beste aus beiden Welten
Das Team (Wang, Li, Li, Chen, Huang u.a.) fuehrt Sequence-Level PPO (SPPO) ein, das den Reasoning-Prozess als Sequence-Level Contextual Bandit-Problem reformuliert.
Zentrale Innovation: eine separate skalare Value-Funktion, die varianzarme Signale ohne Multi-Sampling liefert.
Ergebnisse
Auf mathematischen Benchmarks erreicht SPPO:
- Deutlich bessere Ergebnisse als Standard-Token-Level-PPO
- Die Leistung rechnerisch teurer Gruppenmethoden (GRPO)
- Dramatisch effizienter — kein Multi-Sampling-Overhead
Fuer Forscher, die Reasoning-Modelle trainieren, bietet SPPO eine praktische Alternative: GRPO-Leistung zu Kosten, die naeher am Standard-PPO liegen.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
arXiv:2604.21764: 'Thinking with Reasoning Skills' reduziert Reasoning-Token bei höherer Genauigkeit — ACL 2026 Industry Track
Thinking with Reasoning Skills (ACL 2026 Industry Track): weniger Token, höhere Genauigkeit durch Abruf von Reasoning-Skills
DeepSeek veröffentlicht V4-Pro und V4-Flash: zwei Open-Source-Modelle mit einer Million Token Kontext und 80,6 auf SWE Verified