🟡 🤖 모델 게시일: · 1 분 읽기 ·

ArXiv SPPO: 시퀀스 수준 PPO가 긴 추론 체인의 크레딧 할당 문제를 해결

Sequence-Level PPO는 LLM 추론을 컨텍스트 밴딧 문제로 재정의하여, 멀티 샘플링 없이 GRPO와 같은 비용이 많이 드는 그룹 방법의 성능을 극적으로 적은 리소스로 달성한다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

토큰 수준 PPO의 문제

표준 PPO(Proximal Policy Optimization)는 검증 가능한 보상이 있는 추론 과제에서 LLM을 정렬하기 위한 핵심 알고리즘이다. 그러나 토큰 수준 PPO에는 두 가지 문제가 있다:

  1. 크레딧 할당의 불안정성 — 긴 Chain-of-Thought(CoT) 체인에서 개별 토큰에 대한 기여도 할당이 불안정해진다
  2. 과도한 메모리 비용 — 가치 모델이 상당한 리소스를 필요로 한다

GRPO와 같은 크리틱 없는 대안은 이러한 문제를 완화하지만, 베이스라인 추정을 위해 멀티 샘플링이 필요하여 훈련 처리량을 크게 제한한다.

SPPO — 양쪽의 장점을 모두

연구팀(Wang, Li, Li, Chen, Huang 외)이 **Sequence-Level PPO(SPPO)**를 도입했다. 추론 과정을 시퀀스 수준 컨텍스트 밴딧 문제로 재정의한다.

핵심 혁신: 멀티 샘플링 없이 낮은 분산 신호를 제공하는 분리된 스칼라 가치 함수.

결과

수학 벤치마크에서 SPPO는:

  • 표준 토큰 수준 PPO를 크게 능가
  • 계산 비용이 높은 그룹 방법(GRPO)과 동등한 성능 달성
  • 극적으로 효율적 — 멀티 샘플링 오버헤드 없음

추론 모델을 훈련하는 연구자들에게 SPPO는 실용적인 대안을 제공한다: GRPO 수준의 성능을 표준 PPO에 가까운 비용으로 달성한다.