Latent-GRPO: stabilna RL optimizacija za latent reasoning — 7,86 boda na GSM8K-Aug i 4,27 boda na AIME uz 3-4× kraće reasoning chain-ove
Istraživači predstavljaju Latent-GRPO, stabilizirani RL pristup za latent reasoning gdje se reasoning koraci komprimiraju u kontinuirane reprezentacije. Identificiraju tri fundamentalna problema direktnog GRPO u latent prostoru — invalid latent states, misalignment između reward signala i token update-a, te invalid averaged states — i rješavaju ih kombinacijom invalid-sample advantage maskinga, one-sided noise samplinga i optimal correct-path first-token selekcije. Rezultati: +7,86 Pass@1 na GSM8K-Aug i +4,27 boda na AIME, uz 3-4× kraće reasoning chain-ove.