ArXiv SPPO: PPO auf Sequenzebene loest das Credit-Assignment-Problem in langen Denkketten
Sequence-Level PPO formuliert LLM-Reasoning als kontextuelles Bandit-Problem um und erreicht die Leistung teurer Gruppenmethoden wie GRPO mit dramatisch weniger Ressourcen — ohne Multi-Sampling.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Das Problem mit Token-Level PPO
Standard-PPO (Proximal Policy Optimization) ist der zentrale Algorithmus fuer das Alignment von LLMs bei Reasoning-Aufgaben mit verifizierbaren Belohnungen. Allerdings kaempft Token-Level PPO mit zwei Problemen:
- Instabilitaet der Kreditvergabe — ueber lange Chain-of-Thought (CoT)-Ketten wird die Zuordnung von Verdiensten zu einzelnen Tokens instabil
- Prohibitive Speicherkosten — das Value-Modell erfordert erhebliche Ressourcen
Kritiker-freie Alternativen wie GRPO mildern diese Probleme, erfordern aber mehrfaches Sampling zur Schaetzung der Baseline, was den Trainingsdurchsatz drastisch einschraenkt.
SPPO — das Beste aus beiden Welten
Das Team (Wang, Li, Li, Chen, Huang u.a.) fuehrt Sequence-Level PPO (SPPO) ein, das den Reasoning-Prozess als Sequence-Level Contextual Bandit-Problem reformuliert.
Zentrale Innovation: eine separate skalare Value-Funktion, die varianzarme Signale ohne Multi-Sampling liefert.
Ergebnisse
Auf mathematischen Benchmarks erreicht SPPO:
- Deutlich bessere Ergebnisse als Standard-Token-Level-PPO
- Die Leistung rechnerisch teurer Gruppenmethoden (GRPO)
- Dramatisch effizienter — kein Multi-Sampling-Overhead
Fuer Forscher, die Reasoning-Modelle trainieren, bietet SPPO eine praktische Alternative: GRPO-Leistung zu Kosten, die naeher am Standard-PPO liegen.
Verwandte Nachrichten
arXiv:2605.21006: Off-the-shelf-Persona-Vektoren erreichen 68-98 % der Wirksamkeit von gezieltem Sycophancy-Steering in LLM-Modellen
Black Forest Labs: FLUX Erase übertrifft GPT Image-2 (68,5 %) und Finegrain (63,2 %) bei der promptlosen Objektentfernung
arXiv:2605.19762: ICML-2026-Paper behauptet, Code verbessert nicht das Mathe-Reasoning von LLMs