arXiv:2605.13301 SU-01: 30B model dostiže gold-medal razinu na IMO 2025, USAMO 2026 i IPhO kroz tri-fazni trening
SU-01 je nova metodologija reasoning training-a objavljena 14. svibnja 2026. na arXivu (Yafu Li i 27 koautora, korespondent Runzhe Zhan). 30B parameter A3B backbone dostiže gold-medal performance na International Mathematical Olympiad 2025, USAMO 2026 i International Physics Olympiad 2024-2025 kroz tri sekvencijalne faze: reverse-perplexity curriculum SFT na 340K trajektorija, two-stage RL i test-time scaling. Reasoning lanci dosežu 100K+ tokena.