ArXiv SPPO: 시퀀스 수준 PPO가 긴 추론 체인의 크레딧 할당 문제를 해결
Sequence-Level PPO는 LLM 추론을 컨텍스트 밴딧 문제로 재정의하여, 멀티 샘플링 없이 GRPO와 같은 비용이 많이 드는 그룹 방법의 성능을 극적으로 적은 리소스로 달성한다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
토큰 수준 PPO의 문제
표준 PPO(Proximal Policy Optimization)는 검증 가능한 보상이 있는 추론 과제에서 LLM을 정렬하기 위한 핵심 알고리즘이다. 그러나 토큰 수준 PPO에는 두 가지 문제가 있다:
- 크레딧 할당의 불안정성 — 긴 Chain-of-Thought(CoT) 체인에서 개별 토큰에 대한 기여도 할당이 불안정해진다
- 과도한 메모리 비용 — 가치 모델이 상당한 리소스를 필요로 한다
GRPO와 같은 크리틱 없는 대안은 이러한 문제를 완화하지만, 베이스라인 추정을 위해 멀티 샘플링이 필요하여 훈련 처리량을 크게 제한한다.
SPPO — 양쪽의 장점을 모두
연구팀(Wang, Li, Li, Chen, Huang 외)이 **Sequence-Level PPO(SPPO)**를 도입했다. 추론 과정을 시퀀스 수준 컨텍스트 밴딧 문제로 재정의한다.
핵심 혁신: 멀티 샘플링 없이 낮은 분산 신호를 제공하는 분리된 스칼라 가치 함수.
결과
수학 벤치마크에서 SPPO는:
- 표준 토큰 수준 PPO를 크게 능가
- 계산 비용이 높은 그룹 방법(GRPO)과 동등한 성능 달성
- 극적으로 효율적 — 멀티 샘플링 오버헤드 없음
추론 모델을 훈련하는 연구자들에게 SPPO는 실용적인 대안을 제공한다: GRPO 수준의 성능을 표준 PPO에 가까운 비용으로 달성한다.