루브릭 자기 증류, GRPO 초월 (2026년 6월 arXiv)

루브릭 조건부 자기 증류는 과학적 추론 벤치마크에서 GRPO보다 +1.0점, OPSD보다 +0.9점 높은 새로운 추론 모델 학습 방법입니다. 스칼라 보상 대신 루브릭을 토큰 수준 지도로 활용하여 더욱 정밀한 공로 귀속을 실현합니다.

새로운 학습 방법이 공로 귀속을 재정의하다

자기 증류——외부에서 수집된 데이터가 아닌 모델이 자신이 생성한 예시에서 학습하는 방법——는 비용이 높은 RLHF 프로세스의 인기 있는 대안으로 자리 잡고 있습니다. arXiv:2606.19327은 루브릭 조건부 자기 증류를 도입합니다. 이는 구조화된 루브릭(추론의 좋은 단계를 정의하는 기준 집합)으로 이 아이디어를 발전시킨 접근 방식입니다. 그 결과 전체 답변을 하나의 숫자로 평가하는 스칼라 보상과 달리, 토큰 수준에서 더 세밀한 공로 귀속（credit assignment）이 실현됩니다.

스칼라 보상 대신 토큰 수준 지도

이 방법의 핵심 혁신은 루브릭이 학습에 통합되는 방식에 있습니다. 외부 평가 기준에 머무는 대신, 토큰 수준 지도로 변환됩니다——이로써 모델은 답이 맞는지 여부만이 아니라 추론의 옳고 그름에 어떤 구체적인 토큰이 기여했는지도 알 수 있습니다. 이 메커니즘은 프로세스 보상 모델（PRM）기법과 유사하지만, 여기서 지도는 독립적인 보상 모델이 아닌 루브릭 설명에서 생성됩니다. 현재 두 가지 주류 방법인 GRPO（Group Relative Policy Optimization）와 OPSD（Online Policy Self-Distillation）는 이 세밀함을 잃게 되는 그룹 또는 집계 신호에 의존합니다.

과학적 추론 벤치마크에서 일관된 개선

실험 결과는 새 방법의 우위를 확인합니다. 루브릭 조건부 자기 증류는 수학적, 물리적, 화학적 추론을 포함하는 벤치마크 모음의 평균에서 GRPO보다 +1.0점, OPSD보다 +0.9점 높았습니다. 수분의 일 퍼센트포인트 개선이 수 주간의 추가 개발을 의미하는 분야에서, 1점 향상은 측정 가능한 진전을 나타냅니다. 저자들은 개선이 특정 서브셋이 아닌 모든 테스트에서 일관성을 보인다고 지적하며, 이는 우연이 아닌 구조적 우위를 시사합니다.

차세대 추론 모델 개발에 대한 시사점

이 연구는 o 시리즈（OpenAI）나 Claude Extended Thinking（Anthropic）과 같은 모델을 개발하는 연구소에 실용적인 함의를 가집니다. 루브릭이 추가 모델 없이 스칼라 보상을 대체하거나 보완할 수 있다면, 추론 능력 학습은 더 경제적이고 쉽게 제어할 수 있게 됩니다. 연구자들은 이 방법이 특히 다단계 수학 문제——현재 모델이 추론 체인 초기 단계에서 가장 자주 실수하는 부분——에서 특히 잘 작동한다고 밝힙니다.

자주 묻는 질문

자기 증류란 무엇이며 표준 RLHF 학습과 어떻게 다릅니까?

자기 증류는 외부 인간 평가를 사용하는 RLHF나 그룹 보상을 최적화하는 GRPO와 달리, 모델이 자신이 생성한 예시에서 학습하는 방법입니다. 루브릭 조건부 방식은 구조화된 루브릭을 토큰 수준 지도로 추가하여 추론의 각 단계 품질을 더 세밀하게 평가할 수 있습니다.

루브릭 조건부 자기 증류의 기존 방법 대비 실제 개선폭은 어느 정도입니까?

과학적 추론 벤치마크에서 새 방법은 평균 점수 기준으로 GRPO보다 +1.0점, OPSD보다 +0.9점 높았습니다. 이는 수분의 일 퍼센트포인트 변동이 일반적인 분야에서 통계적으로 유의미한 개선입니다.

arXiv:2606.19327: 루브릭 조건부 자기 증류, 추론 모델 학습에서 GRPO 초월

새로운 학습 방법이 공로 귀속을 재정의하다

스칼라 보상 대신 토큰 수준 지도

과학적 추론 벤치마크에서 일관된 개선

차세대 추론 모델 개발에 대한 시사점

자주 묻는 질문

출처

관련 뉴스