arXiv:2605.13301 SU-01: 30B-Modell erreicht Gold-Medaillen-Niveau bei IMO 2025, USAMO 2026 und IPhO durch dreiphasiges Training
SU-01 ist eine neue Reasoning-Training-Methodik, die am 14. Mai 2026 auf arXiv veröffentlicht wurde (Yafu Li und 27 Co-Autoren, Korrespondenzautor Runzhe Zhan). Ein 30B-Parameter-A3B-Backbone erreicht Gold-Medaillen-Performance bei der International Mathematical Olympiad 2025, USAMO 2026 und International Physics Olympiad 2024-2025 durch drei sequenzielle Phasen: Reverse-Perplexity-Curriculum-SFT auf 340.000 Trajektorien, zweistufiges RL und Test-Time-Scaling. Reasoning-Ketten erreichen über 100.000 Tokens.