🟢 🤖 Modeli Objavljeno: · 1 min čitanja ·

arXiv:2606.17930: Rezultati benchmarka ovise o protokolu — inference compute mijenja rang frontier modela

arXiv:2606.17930 ↗

Editorial ilustracija: rang AI modela ovisi o proračunu računanja pri inferenciji

Rad pokazuje da rezultati benchmarka jako ovise o protokolu mjerenja: testirano je 12 frontier modela na 7 zahtjevnih testova iz softvera, matematike, medicine i kibersigurnosti. Veći proračun tokena bitno poboljšava rezultate na FrontierMathu, Humanity's Last Examu i TerminalBenchu, a modeli se različito rangiraju ovisno o inference compute proračunu. Autori preporučuju izvještavanje sposobnosti kao funkcije inference-time computea, ne kao jednog broja.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Novi preprint upozorava da rezultati benchmarka jako ovise o protokolu mjerenja, što dovodi u pitanje uobičajene ljestvice frontier modela.

Što su autori testirali?

Rad testira 12 frontier modela na 7 zahtjevnih benchmarka iz područja softvera, matematike, medicine i kibersigurnosti. Ključna varijabla je inference compute — količina računanja, odnosno proračun tokena, koju model smije potrošiti pri rješavanju zadatka. Standardne evaluacije obično taj proračun fiksiraju, ali rad pokazuje da je upravo on presudan.

Što se mijenja s većim proračunom?

Veći proračun tokena bitno poboljšava rezultate na FrontierMathu, Humanity’s Last Examu, TerminalBenchu i kibersigurnosnim testovima. Što je još važnije, modeli se različito rangiraju ovisno o tom proračunu — model koji je najbolji uz mali budžet ne mora biti najbolji uz veliki. Zbog toga fiksni-budžet evaluacije sustavno podcjenjuju stvarne sposobnosti.

Zašto je to važno za procjenu modela?

Autori preporučuju da se sposobnost modela izvještava kao funkcija inference-time computea, a ne kao jedan broj. Nalaz je relevantan i za sigurnosne i policy procjene: evaluacija modela bez kontrole računskog proračuna može dati nepouzdan i varljiv poredak.

Česta pitanja

Koji je glavni nalaz rada?
Rezultati i rang frontier modela bitno ovise o inference compute proračunu, pa fiksni-budžet evaluacije podcjenjuju sposobnosti.
Što autori preporučuju?
Izvještavati sposobnost modela kao funkciju inference-time computea, a ne kao jedan broj.