arXiv:2606.26836: Benchmarci propuštaju 82% stvarnih sposobnosti AI modela
Istraživači su pokazali da standardni benchmarci — koji mjere samo jedan model u jednom pokušaju — podcjenjuju stvarne sposobnosti LLM-ova za čak 82%. Uvođenjem Capability Frontier okvira, koji koristi Pareto optimalnost na 21 modelu i 16 benchmarka, moguće je postići istu točnost uz 85% niže troškove.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Zašto standardni benchmarci lažu
Gotovo svaki AI leaderboard mjeri isti model, u jednom pokušaju, na jednom skupu zadataka. Novo istraživanje skupine od jedanaest autora (Fowler, Smith, Graviet i suradnici), objavljeno 25. lipnja 2026. na arXivu pod ID-om 2606.26836, tvrdi da taj pristup sustavno podcjenjuje stvarne sposobnosti LLM-ova — za čak 82% ukupnog poboljšanja koje je moguće postići.
Što je Capability Frontier?
Capability Frontier je Pareto fronta — skup optimalne performanse po trošku — koja prikazuje što je moguće postići kombiniranjem više modela i više pokušaja, umjesto oslanjanja na jedan model u jednom prolazu. Autori su analizirali 21 LLM na 16 benchmarka koji pokrivaju kodiranje, rezoniranje, medicinu, faktualnost, slijeđenje uputa i agentske zadatke.
Koliko standard griješi?
Analiza otkriva dva zasebna izvora podcjenjivanja. Prvo, korekcija za single-model bias — pristranost nastalu time što se promatra samo jedan model — smanjuje stopu pogrešaka za 54% u usporedbi s klasičnim pristupom. Drugo, dodatnom korekcijom za single-run varijancu (šum koji nastaje jer se model pokreće samo jednom) ukupno poboljšanje doseže 82%. Drugim riječima, standardni benchmarci u prosjeku vide manje od petine stvarnih sposobnosti sustava.
Oracle routing i ušteda troškova
Ključna praktična primjena je oracle routing — strategija koja svaki upit usmjerava onom modelu koji ga najtočnije rješava, umjesto da se koristi jedan model za sve. Istraživanje pokazuje da je Capability Frontier moguće dostići uz 85% niže troškove od naivnog pristupa koji bi koristio najjači model na svakom upitu. Prednost oracle routinga nad najboljim pojedinačnim modelom raste monotono s topic entropyjem — što su upiti tematski raznolikiji, to je vrijednost pametnog usmjeravanja veća.
Implikacije za industriju
Nalaz izravno pogađa sve koji donose odluke na temelju javnih ljestvica: jedan model koji vodi benchmark ne znači da je taj model optimalan za produkcijsku upotrebu. Istraživanje sugerira da je buduće vrednovanje LLM-ova nužno višemodelno i višepokušajno, a procjena troška po performansi mora zamijeniti puku točnost kao primarnu metriku.
Česta pitanja
- Što je Capability Frontier i zašto je važna?
- Capability Frontier je Pareto fronta optimalne performanse po trošku — skup kombinacija modela i broja pokušaja koji daju najbolji mogući rezultat za svaki budžet. Važna je jer pokazuje da nijedan pojedinačni model ne dominira u svim situacijama, a pametan odabir može smanjiti troškove za 85% uz istu točnost.
- Što je oracle routing i koliko poboljšava rezultate?
- Oracle routing je strategija usmjeravanja svakog upita onom modelu koji će ga najtočnije riješiti, na temelju karakteristika samog upita. Istraživanje pokazuje da viši topic entropy — raznolikost tema u skupu upita — monotono povećava prednost oracle routinga nad najboljim pojedinačnim modelom.
Izvori
Povezane vijesti
Anthropic: API rate limiti podignuti — Sonnet i Haiku sad na razini Opusa, tri tiera
arXiv:2606.27288: Kad kombiniranje LLM-ova stvarno pomaže — co-failure ceiling na 67 frontier modela
Google: Gemini Nano na Pixelu 50%+ brži uz zamrznutu multi-token predikciju