ArXiv SPPO: PPO auf Sequenzebene loest das Credit-Assignment-Problem in langen Denkketten
Warum es wichtig ist
Sequence-Level PPO formuliert LLM-Reasoning als kontextuelles Bandit-Problem um und erreicht die Leistung teurer Gruppenmethoden wie GRPO mit dramatisch weniger Ressourcen — ohne Multi-Sampling.
Das Problem mit Token-Level PPO
Standard-PPO (Proximal Policy Optimization) ist der zentrale Algorithmus fuer das Alignment von LLMs bei Reasoning-Aufgaben mit verifizierbaren Belohnungen. Allerdings kaempft Token-Level PPO mit zwei Problemen:
- Instabilitaet der Kreditvergabe — ueber lange Chain-of-Thought (CoT)-Ketten wird die Zuordnung von Verdiensten zu einzelnen Tokens instabil
- Prohibitive Speicherkosten — das Value-Modell erfordert erhebliche Ressourcen
Kritiker-freie Alternativen wie GRPO mildern diese Probleme, erfordern aber mehrfaches Sampling zur Schaetzung der Baseline, was den Trainingsdurchsatz drastisch einschraenkt.
SPPO — das Beste aus beiden Welten
Das Team (Wang, Li, Li, Chen, Huang u.a.) fuehrt Sequence-Level PPO (SPPO) ein, das den Reasoning-Prozess als Sequence-Level Contextual Bandit-Problem reformuliert.
Zentrale Innovation: eine separate skalare Value-Funktion, die varianzarme Signale ohne Multi-Sampling liefert.
Ergebnisse
Auf mathematischen Benchmarks erreicht SPPO:
- Deutlich bessere Ergebnisse als Standard-Token-Level-PPO
- Die Leistung rechnerisch teurer Gruppenmethoden (GRPO)
- Dramatisch effizienter — kein Multi-Sampling-Overhead
Fuer Forscher, die Reasoning-Modelle trainieren, bietet SPPO eine praktische Alternative: GRPO-Leistung zu Kosten, die naeher am Standard-PPO liegen.
Verwandte Nachrichten
ArXiv: Process Reward Agents — Echtzeit-Feedback verbessert KI-Schlussfolgerungen in der Medizin ohne Retraining
ArXiv PRA: 4B-Modell erreicht 80,8% auf medizinischem Benchmark — neuer SOTA fuer kleine Skala
ArXiv SUPERNOVA: Reinforcement Learning auf natürlichen Anweisungen verbessert Reasoning um 52,8 %