Latent-GRPO: Stabiles RL für Latent Reasoning

Forscher stellen Latent-GRPO vor, einen stabilisierten RL-Ansatz für Latent Reasoning, bei dem Reasoning-Schritte in kontinuierliche Repräsentationen komprimiert werden. Sie identifizieren drei grundlegende Probleme einer direkten Anwendung von GRPO im Latent Space — Invalid Latent States, Misalignment zwischen Reward-Signal und Token-Updates sowie Invalid Averaged States — und lösen sie durch eine Kombination aus Invalid-Sample-Advantage-Masking, einseitigem Noise Sampling und der Auswahl des optimalen ersten Tokens auf dem korrekten Pfad. Ergebnisse: +7,86 Pass@1 auf GSM8K-Aug und +4,27 Punkte auf AIME bei 3-4× kürzeren Reasoning-Ketten.

Ein Forscherteam (Jingcheng Deng, Zihao Wei, Liang Pang, Junhong Wu, Shicheng Xu, Zenghao Duan, Huawei Shen) veröffentlichte am 30. April 2026 eine Arbeit, die eines der zentralen Probleme im modernen Reasoning von Sprachmodellen löst — die Stabilität des Reinforcement Learning im latenten Raum.

Welches Problem wird gelöst?

Die meisten heutigen Reasoning-Modelle verwenden einen expliziten Chain-of-Thought — sie erzeugen langen Text, in dem sie die Schritte zur Lösung beschreiben. Der Ansatz ist wirksam, aber teuer: Lange Ketten bedeuten viele Tokens, was Kosten und Latenz unmittelbar erhöht.

Latent Reasoning ist eine Alternative: Reasoning-Schritte werden innerhalb des Modells in kontinuierliche Vektorrepräsentationen komprimiert, ohne Verbalisierung. Dadurch verkürzt sich die Kette dramatisch. Das Problem ist, dass traditionelle RL-Algorithmen vom Typ GRPO in diesem Raum nicht gut funktionieren.

Drei grundlegende Probleme des direkten GRPO

Die Autoren identifizieren drei strukturelle Probleme, welche die direkte Anwendung von GRPO auf Latent Reasoning instabil machen:

Invalid Latent States — die unbeschränkte RL-Exploration führt aus der Mannigfaltigkeit heraus, auf der das Modell normalerweise operiert; Repräsentationen werden zu „Müll”.
Reward-Token-Misalignment — das Reward-Signal gehört zur gesamten Sequenz, das Update wird jedoch auf einzelne Tokens angewandt; ohne Intervention bewegt sich der Gradient in die falsche Richtung.
Invalid Averaged States — wenn mehrere gültige Pfade zur richtigen Antwort führen, erzeugt ihre Mittelung eine Repräsentation, die zu keinem von ihnen gehört.

Wie löst Latent-GRPO jedes Problem?

Jedes der drei Probleme wird durch eine gezielte Intervention adressiert:

Invalid-Sample-Advantage-Masking — Beispiele, die die Mannigfaltigkeit verlassen, erhalten Advantage null, wodurch der Gradient auf ihnen aufgehoben wird
Einseitiges Noise Sampling — die Exploration wird auf eine Seite der Verteilung beschränkt, um Divergenz zu verhindern
Auswahl des optimalen ersten Tokens auf dem korrekten Pfad — aus allen korrekten Pfaden wird derjenige gewählt, dessen erstes Token am besten mit der Repräsentation des Modells übereinstimmt, um die Mittelung zu einem Invalid State zu vermeiden

Die Zahlen

Drei zentrale Benchmarks:

Benchmark	Ansatz	Gewinn
GSM8K-Aug (Mathematik mit niedrigem Schwierigkeitsgrad)	Latent-GRPO vs. Baseline	+7,86 Pass@1-Punkte
AIME (Mathematik mit hohem Schwierigkeitsgrad)	Latent-GRPO vs. explizites GRPO	+4,27 Punkte
Länge der Reasoning-Kette	Latent-GRPO vs. explizit	3-4× kürzer

Besonders relevant ist, dass die Gewinne sowohl bei leichten als auch bei schweren Aufgaben auftreten, was darauf hindeutet, dass Latent-GRPO keine allgemeine Fähigkeit gegen schmale Verbesserungen eintauscht.

Warum ist das wichtig?

Der aktuelle Trend zu „Reasoning-Modellen” (OpenAIs o-Serie, DeepSeeks R-Serie, Anthropics Extended Thinking) zeigt, dass Wettbewerbsfähigkeit auf der Fähigkeit zu langem Reasoning aufgebaut wird. Doch jede Verschiebung der Grenze bedeutet mehr Tokens, was direkt in die Kostengleichung der Inference einschlägt — und Anwendungen einschränkt, die in Echtzeit oder massenhaft erfolgen müssen.

Sollte sich Latent-GRPO als reproduzierbar erweisen, bedeutet das, dass dasselbe Reasoning-Niveau mit 3-4× weniger Tokens erreicht werden kann — ein starkes Signal für Organisationen, die Cost-per-Task optimieren. Die zweite, tiefere Erkenntnis ist methodologisch: Die Arbeit zeigt, dass die naive Erweiterung bestehender RL-Algorithmen auf neue Repräsentationsräume nicht funktioniert, und liefert eine konkrete Methodologie dafür, was repariert werden muss. Damit eröffnet sie Raum für die nächste Generation effizienter Reasoning-Modelle, die Qualität nicht gegen Kürze eintauschen.

Häufig gestellte Fragen

Was ist Latent Reasoning?

Ein Ansatz, bei dem Reasoning-Schritte nicht als expliziter Text (Chain-of-Thought) ausgeschrieben, sondern in kontinuierliche Vektorrepräsentationen komprimiert werden. Ziel ist es, die Länge der Reasoning-Kette deutlich zu verkürzen, während die Fähigkeit zur Lösung komplexer Probleme erhalten bleibt.

Warum funktioniert direktes GRPO nicht im Latent Space?

Drei Gründe: (1) Invalid Latent States, weil unbeschränkte Exploration die Mannigfaltigkeit verlässt, auf der das Modell normalerweise arbeitet; (2) das Reward-Signal richtet sich nicht an einzelne Token-Updates aus; (3) die Mittelung mehrerer gültiger Pfade erzeugt einen Invalid Averaged State. Latent-GRPO löst jedes Problem mit einer gezielten Intervention.

Wie bedeutsam sind die Ergebnisse?

Auf dem GSM8K-Aug-Benchmark +7,86 Pass@1-Punkte über dem Baseline, auf AIME (Mathematik mit hohem Schwierigkeitsgrad) +4,27 Punkte über dem expliziten GRPO. Entscheidend ist, dass diese Gewinne bei 3-4× kürzeren Reasoning-Ketten erzielt werden, was direkte Auswirkungen auf die Inference-Kosten hat.

Latent-GRPO: Stabile RL-Optimierung für Latent Reasoning — 7,86 Punkte auf GSM8K-Aug und 4,27 Punkte auf AIME bei 3-4× kürzeren Reasoning-Ketten