arXiv:2606.17930: Rezultati benchmarka ovise o protokolu — inference compute mijenja rang frontier modela
Rad pokazuje da rezultati benchmarka jako ovise o protokolu mjerenja: testirano je 12 frontier modela na 7 zahtjevnih testova iz softvera, matematike, medicine i kibersigurnosti. Veći proračun tokena bitno poboljšava rezultate na FrontierMathu, Humanity's Last Examu i TerminalBenchu, a modeli se različito rangiraju ovisno o inference compute proračunu. Autori preporučuju izvještavanje sposobnosti kao funkcije inference-time computea, ne kao jednog broja.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Novi preprint upozorava da rezultati benchmarka jako ovise o protokolu mjerenja, što dovodi u pitanje uobičajene ljestvice frontier modela.
Što su autori testirali?
Rad testira 12 frontier modela na 7 zahtjevnih benchmarka iz područja softvera, matematike, medicine i kibersigurnosti. Ključna varijabla je inference compute — količina računanja, odnosno proračun tokena, koju model smije potrošiti pri rješavanju zadatka. Standardne evaluacije obično taj proračun fiksiraju, ali rad pokazuje da je upravo on presudan.
Što se mijenja s većim proračunom?
Veći proračun tokena bitno poboljšava rezultate na FrontierMathu, Humanity’s Last Examu, TerminalBenchu i kibersigurnosnim testovima. Što je još važnije, modeli se različito rangiraju ovisno o tom proračunu — model koji je najbolji uz mali budžet ne mora biti najbolji uz veliki. Zbog toga fiksni-budžet evaluacije sustavno podcjenjuju stvarne sposobnosti.
Zašto je to važno za procjenu modela?
Autori preporučuju da se sposobnost modela izvještava kao funkcija inference-time computea, a ne kao jedan broj. Nalaz je relevantan i za sigurnosne i policy procjene: evaluacija modela bez kontrole računskog proračuna može dati nepouzdan i varljiv poredak.
Česta pitanja
- Koji je glavni nalaz rada?
- Rezultati i rang frontier modela bitno ovise o inference compute proračunu, pa fiksni-budžet evaluacije podcjenjuju sposobnosti.
- Što autori preporučuju?
- Izvještavati sposobnost modela kao funkciju inference-time computea, a ne kao jedan broj.
Povezane vijesti
AWS: P-EAGLE paralelno spekulativno dekodiranje ubrzava inferenciju do 3,97×
Anthropic: Originalni modeli Claude Sonnet 4 i Opus 4 povučeni — migracija na Sonnet 4.6 i Opus 4.8
AWS: Google Gemma 4 modeli dostupni na Amazon Bedrocku — tri varijante uz Apache 2.0 licencu