🟡 🤖 모델 2026년 4월 13일 월요일 · 1 분 읽기
ArXiv SPPO: 시퀀스 수준 PPO가 긴 추론 체인의 크레딧 할당 문제를 해결
왜 중요한가
Sequence-Level PPO는 LLM 추론을 컨텍스트 밴딧 문제로 재정의하여, 멀티 샘플링 없이 GRPO와 같은 비용이 많이 드는 그룹 방법의 성능을 극적으로 적은 리소스로 달성한다.
토큰 수준 PPO의 문제
표준 PPO(Proximal Policy Optimization)는 검증 가능한 보상이 있는 추론 과제에서 LLM을 정렬하기 위한 핵심 알고리즘이다. 그러나 토큰 수준 PPO에는 두 가지 문제가 있다:
- 크레딧 할당의 불안정성 — 긴 Chain-of-Thought(CoT) 체인에서 개별 토큰에 대한 기여도 할당이 불안정해진다
- 과도한 메모리 비용 — 가치 모델이 상당한 리소스를 필요로 한다
GRPO와 같은 크리틱 없는 대안은 이러한 문제를 완화하지만, 베이스라인 추정을 위해 멀티 샘플링이 필요하여 훈련 처리량을 크게 제한한다.
SPPO — 양쪽의 장점을 모두
연구팀(Wang, Li, Li, Chen, Huang 외)이 **Sequence-Level PPO(SPPO)**를 도입했다. 추론 과정을 시퀀스 수준 컨텍스트 밴딧 문제로 재정의한다.
핵심 혁신: 멀티 샘플링 없이 낮은 분산 신호를 제공하는 분리된 스칼라 가치 함수.
결과
수학 벤치마크에서 SPPO는:
- 표준 토큰 수준 PPO를 크게 능가
- 계산 비용이 높은 그룹 방법(GRPO)과 동등한 성능 달성
- 극적으로 효율적 — 멀티 샘플링 오버헤드 없음
추론 모델을 훈련하는 연구자들에게 SPPO는 실용적인 대안을 제공한다: GRPO 수준의 성능을 표준 PPO에 가까운 비용으로 달성한다.
🤖 이 기사는 AI가 1차 출처를 기반으로 생성했습니다.