Koji je glavni nalaz rada?

Rezultati i rang frontier modela bitno ovise o inference compute proračunu, pa fiksni-budžet evaluacije podcjenjuju sposobnosti.

Što autori preporučuju?

Izvještavati sposobnost modela kao funkciju inference-time computea, a ne kao jedan broj.

arXiv: benchmark ovisi o inference computeu

Rad pokazuje da rezultati benchmarka jako ovise o protokolu mjerenja: testirano je 12 frontier modela na 7 zahtjevnih testova iz softvera, matematike, medicine i kibersigurnosti. Veći proračun tokena bitno poboljšava rezultate na FrontierMathu, Humanity's Last Examu i TerminalBenchu, a modeli se različito rangiraju ovisno o inference compute proračunu. Autori preporučuju izvještavanje sposobnosti kao funkcije inference-time computea, ne kao jednog broja.

Novi preprint upozorava da rezultati benchmarka jako ovise o protokolu mjerenja, što dovodi u pitanje uobičajene ljestvice frontier modela.

Što su autori testirali?

Rad testira 12 frontier modela na 7 zahtjevnih benchmarka iz područja softvera, matematike, medicine i kibersigurnosti. Ključna varijabla je inference compute — količina računanja, odnosno proračun tokena, koju model smije potrošiti pri rješavanju zadatka. Standardne evaluacije obično taj proračun fiksiraju, ali rad pokazuje da je upravo on presudan.

Što se mijenja s većim proračunom?

Veći proračun tokena bitno poboljšava rezultate na FrontierMathu, Humanity’s Last Examu, TerminalBenchu i kibersigurnosnim testovima. Što je još važnije, modeli se različito rangiraju ovisno o tom proračunu — model koji je najbolji uz mali budžet ne mora biti najbolji uz veliki. Zbog toga fiksni-budžet evaluacije sustavno podcjenjuju stvarne sposobnosti.

Zašto je to važno za procjenu modela?

Autori preporučuju da se sposobnost modela izvještava kao funkcija inference-time computea, a ne kao jedan broj. Nalaz je relevantan i za sigurnosne i policy procjene: evaluacija modela bez kontrole računskog proračuna može dati nepouzdan i varljiv poredak.

arXiv:2606.17930: Rezultati benchmarka ovise o protokolu — inference compute mijenja rang frontier modela

Što su autori testirali?

Što se mijenja s većim proračunom?

Zašto je to važno za procjenu modela?

Česta pitanja

Izvori

Povezane vijesti