24 AI 오늘의 AI 뉴스, 1차 출처에서 정리한 요약.

전체 🤖 모델 📦 오픈소스 ⚖️ 규제 🤝 에이전트 🔧 하드웨어 🏥 실무 💬 커뮤니티 🛡️ 보안 ✨ 흥미로운 소식

🟡 🤖 모델 게시일: 2026년 4월 13일 월요일 · 1 분 읽기 · 24 AI 편집부

ArXiv SPPO: 시퀀스 수준 PPO가 긴 추론 체인의 크레딧 할당 문제를 해결

Sequence-Level PPO는 LLM 추론을 컨텍스트 밴딧 문제로 재정의하여, 멀티 샘플링 없이 GRPO와 같은 비용이 많이 드는 그룹 방법의 성능을 극적으로 적은 리소스로 달성한다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

토큰 수준 PPO의 문제

표준 PPO(Proximal Policy Optimization)는 검증 가능한 보상이 있는 추론 과제에서 LLM을 정렬하기 위한 핵심 알고리즘이다. 그러나 토큰 수준 PPO에는 두 가지 문제가 있다:

크레딧 할당의 불안정성 — 긴 Chain-of-Thought(CoT) 체인에서 개별 토큰에 대한 기여도 할당이 불안정해진다
과도한 메모리 비용 — 가치 모델이 상당한 리소스를 필요로 한다

GRPO와 같은 크리틱 없는 대안은 이러한 문제를 완화하지만, 베이스라인 추정을 위해 멀티 샘플링이 필요하여 훈련 처리량을 크게 제한한다.

SPPO — 양쪽의 장점을 모두

연구팀(Wang, Li, Li, Chen, Huang 외)이 **Sequence-Level PPO(SPPO)**를 도입했다. 추론 과정을 시퀀스 수준 컨텍스트 밴딧 문제로 재정의한다.

핵심 혁신: 멀티 샘플링 없이 낮은 분산 신호를 제공하는 분리된 스칼라 가치 함수.

결과

수학 벤치마크에서 SPPO는:

표준 토큰 수준 PPO를 크게 능가
계산 비용이 높은 그룹 방법(GRPO)과 동등한 성능 달성
극적으로 효율적 — 멀티 샘플링 오버헤드 없음

추론 모델을 훈련하는 연구자들에게 SPPO는 실용적인 대안을 제공한다: GRPO 수준의 성능을 표준 PPO에 가까운 비용으로 달성한다.

출처

ArXiv: SPPO — 장기 추론 과제를 위한 시퀀스 수준 PPO ↗

공유: 𝕏 X in LinkedIn f Facebook

관련 뉴스

🟡 2026-05-22

arXiv:2605.21006：기성 페르소나 벡터가 LLM 모델 표적 아첨 스티어링의 68-98% 효율 달성

🟢 2026-05-22

Black Forest Labs：FLUX Erase, 프롬프트 없는 객체 제거에서 GPT Image-2（68.5%）와 Finegrain（63.2%）을 능가

🟢 2026-05-21

arXiv:2605.19762: ICML 2026 논문——코드가 LLM의 수학적 추론을 향상시키지 않는다고 주장

← 홈으로 돌아가기