Latent-GRPO: 잠재 추론을 위한 안정적 RL 최적화 — GSM8K-Aug에서 7.86점, AIME에서 4.27점 향상, 추론 체인은 3-4배 단축
연구진이 추론 단계를 연속 표현으로 압축하는 잠재 추론(latent reasoning)을 위한 안정화된 RL 접근법인 Latent-GRPO를 제시한다. 잠재 공간에서의 직접적인 GRPO에는 세 가지 근본 문제 — 무효 잠재 상태, 보상 신호와 토큰 업데이트 간 불일치, 무효 평균 상태 — 가 있음을 식별하고, 무효 샘플 어드밴티지 마스킹·단방향 노이즈 샘플링·최적 정답 경로 첫 토큰 선택의 조합으로 해결한다. 결과: GSM8K-Aug에서 Pass@1 +7.86, AIME에서 +4.27점, 추론 체인 3-4배 단축.