🟡 🤖 모델 게시일: · 2 분 읽기 ·

arXiv:2605.13301 SU-01:30B A3B 모델, 3단계 훈련으로 IMO 2025·USAMO 2026·IPhO에서 금메달 수준 달성

arXiv:2605.13301 ↗

에디토리얼 일러스트: 수학 공식과 AI 추론 트리가 있는 메달 시상대.

SU-01은 2026년 5월 14일 arXiv에 공개된 새로운 추론 훈련 방법론입니다(Yafu Li 및 27명의 공저자, 교신저자 Runzhe Zhan). 30B 파라미터 A3B 백본이 340K 궤적에 대한 역 퍼플렉시티 커리큘럼 SFT, 2단계 RL, 테스트 시간 스케일링이라는 세 가지 연속 단계를 통해 IMO 2025, USAMO 2026, IPhO 2024-2025에서 금메달 수준의 성능을 달성합니다. 추론 체인은 100K+ 토큰에 달합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Yafu Li(교신 연락처 Runzhe Zhan) 및 27명의 공저자는 2026년 5월 14일 SU-01을 발표했습니다. 추론 백본을 올림피아드 수준의 솔버로 변환하는 통합 방법론입니다. 30B 파라미터 A3B 모델은 세 가지 엘리트 경쟁 벤치마크에서 금메달 수준을 달성했습니다: IMO 2025, USAMO 2026, IPhO 2024-2025.

모델 규모는 얼마이며 정상 수준은 어떻게 측정됩니까?

SU-01은 30B 파라미터 A3B 백본을 사용합니다. 같은 공간에서 경쟁하는 많은 프런티어 모델보다 훨씬 작습니다. IMO 2025 및 USAMO 2026에서 금메달 달성은 장기적인 수학·물리 추론에서 훈련 방법론이 원시 파라미터 스케일링보다 더 중요하다는 것을 시사합니다. 추론 체인은 개별 문제에 대해 10만 토큰을 초과할 수 있습니다. 이는 모델이 답을 「추측」하는 것이 아니라 상세한 증명 흔적을 구축하고 있다는 지표입니다.

3가지 훈련 단계는 어떻게 작동합니까?

1단계: 역 퍼플렉시티 커리큘럼 SFT. 이 접근 방식은 지도 미세 조정 단계에서 약 340,000개의 궤적(각각 8K 토큰 미만)을 사용합니다. 역 퍼플렉시티 커리큘럼은 훈련 일정이 모델에게 가장 가능성 높은 궤적(쉬운 것)에서 가장 가능성 낮은 궤적(가장 어려운 것)으로 진행된다는 것을 의미합니다. 이를 통해 증명 탐색 및 검증 행동이 점진적으로 발달합니다.

2단계: 2단계 RL 파이프라인. 강화 학습에는 두 가지 서브 단계가 있습니다. 먼저 검증 가능한 보상 신호(수학적 답변에 대한 명확한 이진 「정답/오답」), 그 다음 증명 수준 최적화(최종 답변만이 아닌 논증 품질에 대한 연속 보상)입니다.

3단계: 테스트 시간 스케일링. 경쟁 문제 세트에 대해 확장된 사고와 병렬 샘플링을 활성화하는 추론 시간 기법입니다. 더 어려운 문제에 모델이 더 많은 추론 계산을 투입합니다.

SU-01은 추론 모델 전반에 무엇을 의미합니까?

이 논문은 방법론을 다양한 추론 백본에 적용할 수 있는 이전 가능한 레시피로 포지셔닝합니다. 30B 모델이 SU-01 훈련으로 금메달 수준을 달성할 수 있다면, 기존 오픈소스 모델(Llama, Qwen, DeepSeek)이 올바른 훈련 파이프라인을 통해 미활용된 추론 능력을 가지고 있다는 것을 시사합니다. 수학을 넘어선 일반화도 입증되었습니다. IPhO(물리) 결과는 순수 수학 내부만이 아닌 STEM 영역 간 전이를 보여줍니다.

이 접근 방식은 스케일링보다 훈련 데이터 품질과 방법론이 결정적으로 중요하다고 주장하는 2025-2026년 논문의 흐름을 이어받으며, 메모리 최적화에 관한 arXiv:2605.10870 레이트-디스토션 논문 및 arXiv:2605.11882 FATE 안전 정렬과 상호 보완적입니다.

자주 묻는 질문

SU-01 모델의 아키텍처는 무엇입니까?
SU-01은 30B 파라미터 A3B 백본 아키텍처를 사용합니다. 유사한 올림피아드 추론을 달성하는 많은 프런티어 모델보다 훨씬 작으며, 장기적인 수학·물리 추론에서 모델 크기보다 훈련 방법론이 더 중요하다는 것을 시사합니다.
3가지 훈련 단계는 어떻게 작동합니까?
1단계는 약 340K 궤적(각각 8K 토큰 미만)에 대한 역 퍼플렉시티 커리큘럼 SFT를 사용하여 증명 탐색 및 검증 행동을 발달시킵니다. 2단계는 검증 가능한 보상에서 증명 수준 최적화로의 2단계 RL 파이프라인입니다. 3단계는 경쟁 문제 세트에 테스트 시간 스케일링 기법을 추가합니다.