🤖 24 AI
🟡 🤖 Modelle Montag, 13. April 2026 · 1 Min. Lesezeit

ArXiv SPPO: PPO auf Sequenzebene loest das Credit-Assignment-Problem in langen Denkketten

Warum es wichtig ist

Sequence-Level PPO formuliert LLM-Reasoning als kontextuelles Bandit-Problem um und erreicht die Leistung teurer Gruppenmethoden wie GRPO mit dramatisch weniger Ressourcen — ohne Multi-Sampling.

Das Problem mit Token-Level PPO

Standard-PPO (Proximal Policy Optimization) ist der zentrale Algorithmus fuer das Alignment von LLMs bei Reasoning-Aufgaben mit verifizierbaren Belohnungen. Allerdings kaempft Token-Level PPO mit zwei Problemen:

  1. Instabilitaet der Kreditvergabe — ueber lange Chain-of-Thought (CoT)-Ketten wird die Zuordnung von Verdiensten zu einzelnen Tokens instabil
  2. Prohibitive Speicherkosten — das Value-Modell erfordert erhebliche Ressourcen

Kritiker-freie Alternativen wie GRPO mildern diese Probleme, erfordern aber mehrfaches Sampling zur Schaetzung der Baseline, was den Trainingsdurchsatz drastisch einschraenkt.

SPPO — das Beste aus beiden Welten

Das Team (Wang, Li, Li, Chen, Huang u.a.) fuehrt Sequence-Level PPO (SPPO) ein, das den Reasoning-Prozess als Sequence-Level Contextual Bandit-Problem reformuliert.

Zentrale Innovation: eine separate skalare Value-Funktion, die varianzarme Signale ohne Multi-Sampling liefert.

Ergebnisse

Auf mathematischen Benchmarks erreicht SPPO:

  • Deutlich bessere Ergebnisse als Standard-Token-Level-PPO
  • Die Leistung rechnerisch teurer Gruppenmethoden (GRPO)
  • Dramatisch effizienter — kein Multi-Sampling-Overhead

Fuer Forscher, die Reasoning-Modelle trainieren, bietet SPPO eine praktische Alternative: GRPO-Leistung zu Kosten, die naeher am Standard-PPO liegen.

🤖 Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.