Benchmarci propuštaju 82% AI sposobnosti

Istraživači su pokazali da standardni benchmarci — koji mjere samo jedan model u jednom pokušaju — podcjenjuju stvarne sposobnosti LLM-ova za čak 82%. Uvođenjem Capability Frontier okvira, koji koristi Pareto optimalnost na 21 modelu i 16 benchmarka, moguće je postići istu točnost uz 85% niže troškove.

Zašto standardni benchmarci lažu

Gotovo svaki AI leaderboard mjeri isti model, u jednom pokušaju, na jednom skupu zadataka. Novo istraživanje skupine od jedanaest autora (Fowler, Smith, Graviet i suradnici), objavljeno 25. lipnja 2026. na arXivu pod ID-om 2606.26836, tvrdi da taj pristup sustavno podcjenjuje stvarne sposobnosti LLM-ova — za čak 82% ukupnog poboljšanja koje je moguće postići.

Što je Capability Frontier?

Capability Frontier je Pareto fronta — skup optimalne performanse po trošku — koja prikazuje što je moguće postići kombiniranjem više modela i više pokušaja, umjesto oslanjanja na jedan model u jednom prolazu. Autori su analizirali 21 LLM na 16 benchmarka koji pokrivaju kodiranje, rezoniranje, medicinu, faktualnost, slijeđenje uputa i agentske zadatke.

Koliko standard griješi?

Analiza otkriva dva zasebna izvora podcjenjivanja. Prvo, korekcija za single-model bias — pristranost nastalu time što se promatra samo jedan model — smanjuje stopu pogrešaka za 54% u usporedbi s klasičnim pristupom. Drugo, dodatnom korekcijom za single-run varijancu (šum koji nastaje jer se model pokreće samo jednom) ukupno poboljšanje doseže 82%. Drugim riječima, standardni benchmarci u prosjeku vide manje od petine stvarnih sposobnosti sustava.

Oracle routing i ušteda troškova

Ključna praktična primjena je oracle routing — strategija koja svaki upit usmjerava onom modelu koji ga najtočnije rješava, umjesto da se koristi jedan model za sve. Istraživanje pokazuje da je Capability Frontier moguće dostići uz 85% niže troškove od naivnog pristupa koji bi koristio najjači model na svakom upitu. Prednost oracle routinga nad najboljim pojedinačnim modelom raste monotono s topic entropyjem — što su upiti tematski raznolikiji, to je vrijednost pametnog usmjeravanja veća.

Implikacije za industriju

Nalaz izravno pogađa sve koji donose odluke na temelju javnih ljestvica: jedan model koji vodi benchmark ne znači da je taj model optimalan za produkcijsku upotrebu. Istraživanje sugerira da je buduće vrednovanje LLM-ova nužno višemodelno i višepokušajno, a procjena troška po performansi mora zamijeniti puku točnost kao primarnu metriku.

Česta pitanja

Što je Capability Frontier i zašto je važna?

Capability Frontier je Pareto fronta optimalne performanse po trošku — skup kombinacija modela i broja pokušaja koji daju najbolji mogući rezultat za svaki budžet. Važna je jer pokazuje da nijedan pojedinačni model ne dominira u svim situacijama, a pametan odabir može smanjiti troškove za 85% uz istu točnost.

Što je oracle routing i koliko poboljšava rezultate?

Oracle routing je strategija usmjeravanja svakog upita onom modelu koji će ga najtočnije riješiti, na temelju karakteristika samog upita. Istraživanje pokazuje da viši topic entropy — raznolikost tema u skupu upita — monotono povećava prednost oracle routinga nad najboljim pojedinačnim modelom.

arXiv:2606.26836: Benchmarci propuštaju 82% stvarnih sposobnosti AI modela