arXiv:2605.13301 SU-01:30B A3B 모델, 3단계 훈련으로 IMO 2025·USAMO 2026·IPhO에서 금메달 수준 달성
SU-01은 2026년 5월 14일 arXiv에 공개된 새로운 추론 훈련 방법론입니다(Yafu Li 및 27명의 공저자, 교신저자 Runzhe Zhan). 30B 파라미터 A3B 백본이 340K 궤적에 대한 역 퍼플렉시티 커리큘럼 SFT, 2단계 RL, 테스트 시간 스케일링이라는 세 가지 연속 단계를 통해 IMO 2025, USAMO 2026, IPhO 2024-2025에서 금메달 수준의 성능을 달성합니다. 추론 체인은 100K+ 토큰에 달합니다.