arXiv:2605.13301 SU-01: 30B model dostiže gold-medal razinu na IMO 2025, USAMO 2026 i IPhO kroz tri-fazni trening
SU-01 je nova metodologija reasoning training-a objavljena 14. svibnja 2026. na arXivu (Yafu Li i 27 koautora, korespondent Runzhe Zhan). 30B parameter A3B backbone dostiže gold-medal performance na International Mathematical Olympiad 2025, USAMO 2026 i International Physics Olympiad 2024-2025 kroz tri sekvencijalne faze: reverse-perplexity curriculum SFT na 340K trajektorija, two-stage RL i test-time scaling. Reasoning lanci dosežu 100K+ tokena.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Yafu Li (corresponding contact Runzhe Zhan) i 27 koautora objavili su 14. svibnja 2026. SU-01 — unificiranu metodologiju za pretvaranje reasoning backbone-ova u olympiad-level solvere. 30B parameter A3B model dostiže gold-medal razinu na tri elitne natjecateljske benchmark-e: IMO 2025, USAMO 2026 i IPhO 2024-2025.
Koliki je model i kako se mjeri vrhunac?
SU-01 koristi 30B parameter A3B backbone — značajno manje od mnogih frontier modela koji se natječu u istom prostoru. Postizanje gold-medala na International Mathematical Olympiad 2025 i USA Mathematical Olympiad 2026 sugerira da je trening metodologija kritičnija od raw parameter scaling-a za long-horizon matematičko/fizičko rasuđivanje. Reasoning lanci dosežu preko 100.000 tokena za pojedinačne probleme — pokazatelj da model ne “gađa” odgovore već gradi detaljne proof tragove.
Kako rade tri trening faze?
Faza 1: Reverse-perplexity curriculum SFT. Pristup koristi približno 340.000 trajektorija (svaka ispod 8K tokena) u supervised fine-tuning fazi. Reverse-perplexity curriculum znači da training raspored ide od najvjerojatnijih trajektorija (lakših za model) prema najmanje vjerojatnima (najtežih) — što razvija proof-search i verification ponašanja postupno.
Faza 2: Two-stage RL pipeline. Reinforcement learning ima dva podstadija: prvo s verifiable reward signalima (jasan binary “točan/netočan” za matematičke odgovore), zatim s proof-level optimizacijom (kontinuiran reward za kvalitetu argumentacije, ne samo finalni odgovor).
Faza 3: Test-time scaling. Inference-time tehnike koje aktiviraju extended thinking i parallel sampling za competitive problem sets — model troši više compute-a na inferenciji za teže probleme.
Što SU-01 znači za reasoning modele općenito?
Rad pozicionira metodologiju kao prenosivi recipe koji se može primijeniti na različite reasoning backbones. Ako 30B model može dostići gold-medal razinu uz SU-01 trening, sugerira se da postojeći open-source modeli (Llama, Qwen, DeepSeek) imaju neiskorištene reasoning kapacitete dostupne kroz pravu trening pipeline. Generalizacija izvan matematike također je dokazana — IPhO (physics) rezultati pokazuju transfer kroz STEM domene, ne samo unutar čiste matematike.
Pristup nadograđuje val 2025-2026 papera koji ističu da je trening data quality i methodology presudniji od scaling-a — komplementarno s arXiv:2605.10870 Rate-Distortion paper-om o memory optimization i arXiv:2605.11882 FATE safety alignment-u.
Česta pitanja
- Koja je arhitektura SU-01 modela?
- SU-01 koristi 30B parameter A3B backbone arhitekturu — manju od mnogih frontier modela koji već postižu sličan olympiad reasoning, što sugerira da je trening metodologija kritičnija od veličine modela za long-horizon math/physics rješavanje.
- Kako tri trening faze funkcioniraju?
- Faza 1 koristi reverse-perplexity curriculum SFT na 340K trajektorija (svaka ispod 8K tokena) za development proof-search i verification ponašanja; Faza 2 je two-stage RL pipeline od verifiable rewards do proof-level optimizacije; Faza 3 dodaje test-time scaling tehnike za competitive problem sets.
Povezane vijesti
arXiv:2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM modelima
Black Forest Labs: FLUX Erase nadmašuje GPT Image-2 (68.5%) i Finegrain (63.2%) u uklanjanju objekata bez prompta
arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova