arXiv SU-01: 30B model + gold medal na IMO/USAMO

SU-01 je nova metodologija reasoning training-a objavljena 14. svibnja 2026. na arXivu (Yafu Li i 27 koautora, korespondent Runzhe Zhan). 30B parameter A3B backbone dostiže gold-medal performance na International Mathematical Olympiad 2025, USAMO 2026 i International Physics Olympiad 2024-2025 kroz tri sekvencijalne faze: reverse-perplexity curriculum SFT na 340K trajektorija, two-stage RL i test-time scaling. Reasoning lanci dosežu 100K+ tokena.

Yafu Li (corresponding contact Runzhe Zhan) i 27 koautora objavili su 14. svibnja 2026. SU-01 — unificiranu metodologiju za pretvaranje reasoning backbone-ova u olympiad-level solvere. 30B parameter A3B model dostiže gold-medal razinu na tri elitne natjecateljske benchmark-e: IMO 2025, USAMO 2026 i IPhO 2024-2025.

Koliki je model i kako se mjeri vrhunac?

SU-01 koristi 30B parameter A3B backbone — značajno manje od mnogih frontier modela koji se natječu u istom prostoru. Postizanje gold-medala na International Mathematical Olympiad 2025 i USA Mathematical Olympiad 2026 sugerira da je trening metodologija kritičnija od raw parameter scaling-a za long-horizon matematičko/fizičko rasuđivanje. Reasoning lanci dosežu preko 100.000 tokena za pojedinačne probleme — pokazatelj da model ne “gađa” odgovore već gradi detaljne proof tragove.

Kako rade tri trening faze?

Faza 1: Reverse-perplexity curriculum SFT. Pristup koristi približno 340.000 trajektorija (svaka ispod 8K tokena) u supervised fine-tuning fazi. Reverse-perplexity curriculum znači da training raspored ide od najvjerojatnijih trajektorija (lakših za model) prema najmanje vjerojatnima (najtežih) — što razvija proof-search i verification ponašanja postupno.

Faza 2: Two-stage RL pipeline. Reinforcement learning ima dva podstadija: prvo s verifiable reward signalima (jasan binary “točan/netočan” za matematičke odgovore), zatim s proof-level optimizacijom (kontinuiran reward za kvalitetu argumentacije, ne samo finalni odgovor).

Faza 3: Test-time scaling. Inference-time tehnike koje aktiviraju extended thinking i parallel sampling za competitive problem sets — model troši više compute-a na inferenciji za teže probleme.

Što SU-01 znači za reasoning modele općenito?

Rad pozicionira metodologiju kao prenosivi recipe koji se može primijeniti na različite reasoning backbones. Ako 30B model može dostići gold-medal razinu uz SU-01 trening, sugerira se da postojeći open-source modeli (Llama, Qwen, DeepSeek) imaju neiskorištene reasoning kapacitete dostupne kroz pravu trening pipeline. Generalizacija izvan matematike također je dokazana — IPhO (physics) rezultati pokazuju transfer kroz STEM domene, ne samo unutar čiste matematike.

Pristup nadograđuje val 2025-2026 papera koji ističu da je trening data quality i methodology presudniji od scaling-a — komplementarno s arXiv:2605.10870 Rate-Distortion paper-om o memory optimization i arXiv:2605.11882 FATE safety alignment-u.

Česta pitanja

Koja je arhitektura SU-01 modela?

SU-01 koristi 30B parameter A3B backbone arhitekturu — manju od mnogih frontier modela koji već postižu sličan olympiad reasoning, što sugerira da je trening metodologija kritičnija od veličine modela za long-horizon math/physics rješavanje.

Kako tri trening faze funkcioniraju?

Faza 1 koristi reverse-perplexity curriculum SFT na 340K trajektorija (svaka ispod 8K tokena) za development proof-search i verification ponašanja; Faza 2 je two-stage RL pipeline od verifiable rewards do proof-level optimizacije; Faza 3 dodaje test-time scaling tehnike za competitive problem sets.

arXiv:2605.13301 SU-01: 30B model dostiže gold-medal razinu na IMO 2025, USAMO 2026 i IPhO kroz tri-fazni trening

Koliki je model i kako se mjeri vrhunac?

Kako rade tri trening faze?

Što SU-01 znači za reasoning modele općenito?

Česta pitanja

Izvori

Povezane vijesti