Latent-GRPO: Stabile RL-Optimierung für Latent Reasoning — 7,86 Punkte auf GSM8K-Aug und 4,27 Punkte auf AIME bei 3-4× kürzeren Reasoning-Ketten
Forscher stellen Latent-GRPO vor, einen stabilisierten RL-Ansatz für Latent Reasoning, bei dem Reasoning-Schritte in kontinuierliche Repräsentationen komprimiert werden. Sie identifizieren drei grundlegende Probleme einer direkten Anwendung von GRPO im Latent Space — Invalid Latent States, Misalignment zwischen Reward-Signal und Token-Updates sowie Invalid Averaged States — und lösen sie durch eine Kombination aus Invalid-Sample-Advantage-Masking, einseitigem Noise Sampling und der Auswahl des optimalen ersten Tokens auf dem korrekten Pfad. Ergebnisse: +7,86 Pass@1 auf GSM8K-Aug und +4,27 Punkte auf AIME bei 3-4× kürzeren Reasoning-Ketten.