Latent-GRPO: 잠재 추론을 위한 안정적 RL 최적화 — GSM8K-Aug에서 7.86점, AIME에서 4.27점 향상, 추론 체인은 3-4배 단축
연구진이 추론 단계를 연속 표현으로 압축하는 잠재 추론(latent reasoning)을 위한 안정화된 RL 접근법인 Latent-GRPO를 제시한다. 잠재 공간에서의 직접적인 GRPO에는 세 가지 근본 문제 — 무효 잠재 상태, 보상 신호와 토큰 업데이트 간 불일치, 무효 평균 상태 — 가 있음을 식별하고, 무효 샘플 어드밴티지 마스킹·단방향 노이즈 샘플링·최적 정답 경로 첫 토큰 선택의 조합으로 해결한다. 결과: GSM8K-Aug에서 Pass@1 +7.86, AIME에서 +4.27점, 추론 체인 3-4배 단축.
연구진(Jingcheng Deng, Zihao Wei, Liang Pang, Junhong Wu, Shicheng Xu, Zenghao Duan, Huawei Shen)은 2026년 4월 30일, 현대 언어 모델 추론에서 핵심 문제 중 하나인 — 잠재 공간에서의 강화학습 안정성 — 을 해결하는 논문을 공개했다.
어떤 문제를 해결하는가?
오늘날 대부분의 추론 모델은 명시적 chain-of-thought를 사용한다 — 해답에 이르는 단계를 기술하는 긴 텍스트를 생성한다. 이 방식은 효과적이지만 비용이 크다: 긴 체인은 많은 토큰을 의미하며, 이는 비용과 지연 시간을 직접 끌어올린다.
잠재 추론(latent reasoning) 은 그 대안이다: 추론 단계는 언어화되지 않고 모델 내부의 연속 벡터 표현으로 압축된다. 이로써 체인이 극적으로 짧아진다. 문제는 GRPO 같은 전통적 RL 알고리즘이 이 공간에서는 잘 작동하지 않는다는 점이다.
직접적인 GRPO의 세 가지 근본 문제
저자들은 GRPO를 잠재 추론에 직접 적용하면 불안정해지는 세 가지 구조적 문제를 식별한다:
- 무효 잠재 상태(Invalid latent states) — RL의 무제한 탐색이 모델이 정상 작동하는 매니폴드 바깥으로 향하게 하여 표현이 “쓰레기”가 된다.
- 보상-토큰 불일치(Reward-token misalignment) — 보상 신호는 전체 시퀀스에 속하지만, 업데이트는 개별 토큰에 적용된다; 개입이 없으면 그래디언트가 잘못된 방향으로 간다.
- 무효 평균 상태(Invalid averaged states) — 여러 유효 경로가 정답에 이를 때, 그것들의 평균은 그 어느 경로에도 속하지 않는 표현을 만든다.
Latent-GRPO는 각 문제를 어떻게 해결하는가?
세 가지 문제는 각각 표적 개입으로 해결된다:
- 무효 샘플 어드밴티지 마스킹(Invalid-sample advantage masking) — 매니폴드를 벗어난 샘플은 어드밴티지가 0이 되어, 그 위에서의 그래디언트가 상쇄된다
- 단방향 노이즈 샘플링(One-sided noise sampling) — 탐색을 분포의 한쪽으로 제한하여 발산을 방지한다
- 최적 정답 경로 첫 토큰 선택(Optimal correct-path first-token selection) — 모든 정답 경로 중 첫 토큰이 모델 표현과 가장 잘 일치하는 경로를 선택하여 무효 상태의 평균화를 회피한다
수치
세 가지 핵심 지표:
| 벤치마크 | 접근법 | 향상 |
|---|---|---|
| GSM8K-Aug(저난도 수학) | Latent-GRPO vs 베이스라인 | +7.86 Pass@1점 |
| AIME(고난도 수학) | Latent-GRPO vs 명시적 GRPO | +4.27점 |
| 추론 체인 길이 | Latent-GRPO vs 명시적 | 3-4배 단축 |
특히 주목할 점은 향상이 쉬운 과제와 어려운 과제 모두에서 나타난다는 것으로, 이는 Latent-GRPO가 일반적 능력을 좁은 개선과 맞바꾸지 않음을 시사한다.
왜 이것이 중요한가?
현재의 “추론 모델” 트렌드(OpenAI o-시리즈, DeepSeek R-시리즈, Anthropic extended thinking)는 경쟁력이 긴 추론 능력에 기반해 구축됨을 보여준다. 그러나 경계를 한 칸씩 옮길 때마다 더 많은 토큰이 필요해지고, 이는 추론의 비용 방정식을 직접 타격한다 — 그리고 실시간이거나 대규모여야 하는 응용 분야를 제한한다.
Latent-GRPO가 재현성을 입증한다면, 동일한 수준의 추론을 3-4배 적은 토큰으로 달성할 수 있다는 의미이다 — 작업당 비용(cost-per-task)을 최적화하는 조직에는 큰 신호이다. 또 다른 더 깊은 통찰은 방법론적이다: 본 논문은 기존 RL 알고리즘을 새로운 표현 공간으로 단순 확장하는 것이 작동하지 않음을 보여주고, 무엇을 고쳐야 하는지에 대한 구체적 방법론을 제시한다. 이로써 품질을 단축으로 맞바꾸지 않는 차세대 효율적 추론 모델의 가능성이 열린다.
자주 묻는 질문
- 잠재 추론(latent reasoning)이란 무엇인가?
- 추론 단계를 명시적인 텍스트(chain-of-thought)로 작성하지 않고, 연속적인 벡터 표현으로 압축하는 접근법이다. 복잡한 문제를 해결하는 능력을 유지하면서 추론 체인의 길이를 크게 단축하는 것이 목표이다.
- 왜 직접적인 GRPO는 잠재 공간에서 작동하지 않는가?
- 세 가지 이유가 있다: (1) 무제한 탐색으로 인한 무효 잠재 상태가 모델이 정상적으로 작동하는 매니폴드를 벗어남, (2) 보상 신호가 개별 토큰 업데이트와 정렬되지 않음, (3) 여러 유효 경로를 평균하면 그 어느 경로에도 속하지 않는 무효 평균 상태가 생성됨. Latent-GRPO는 각 문제를 표적 개입으로 해결한다.
- 결과는 얼마나 유의미한가?
- GSM8K-Aug 벤치마크에서 베이스라인 대비 Pass@1 +7.86점, AIME(고난도 수학)에서 명시적 GRPO 대비 +4.27점이다. 핵심은 이러한 향상이 추론 체인 3-4배 단축과 동시에 달성되었다는 점으로, 추론 비용에 직접적 영향이 있다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.