🟡 🤖 Modeli utorak, 5. svibnja 2026. · 3 min čitanja ·

ArXiv Token Arena: kontinuirani benchmark koji ujedinjuje energiju i kogniciju, otkriva 6,2× razliku u jouleima po točnom odgovoru između endpointa

Editorial ilustracija: vaga koja mjeri energiju i kogniciju AI inference endpointa, simbolika multi-dimenzionalnog benchmarka

Yuxuan Gao, Megan Wang i Yi Ling Yu objavili su 1. svibnja 2026. Token Arenu — neprekidnu benchmarking platformu koja evaluira AI inference na razini krajnjih točaka (78 endpointa, 12 model familija). Otkrivaju da isti model na različitim endpointima može varirati do 12,5 bodova na math/code benchmarku, do reda veličine u tail latenciji i do faktora 6,2 u jouleima po točnom odgovoru. Platforma objavljuje rezultate pod CC BY 4.0 licencom.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Tim Yuxuan Gao, Megan Wang i Yi Ling Yu objavio je 1. svibnja 2026. na ArXiv-u Token Arenu — kontinuiranu benchmarking platformu koja evaluira AI inference na razini krajnjih točaka. Cilj rada je ujediniti dimenzije energije i kognicije u jednom mjernom okviru.

Što Token Arena mjeri što drugi benchmarci propuštaju?

Standardni AI benchmarci (MMLU, HumanEval, GSM8K) mjere kvalitetu modela u idealnim laboratorijskim uvjetima — bez energetskih, troškovnih ili latencijskih dimenzija. Token Arena pristupa drugačije: mjeri specifičnu kombinaciju pružatelja, modela i konfiguracije kao osnovnu jedinicu mjerenja.

Razlog: u stvarnoj produkciji aplikacija ne konzumira “model X” — konzumira endpoint kod određenog pružatelja s određenom kvantizacijom, određenim batch settingom i određenim hardware backendom. Isti GPT-4 model na razini Open Routera može biti desetak puta brži ili pet puta jeftiniji nego direktno preko OpenAI API-ja, ovisno o ruti.

Platforma evaluira pet dimenzija istovremeno:

  1. Brzina izlaza (output throughput, tokens/sec)
  2. Vrijeme do prvog tokena (TTFT, kritično za interaktivne aplikacije)
  3. Blendirana cijena (kombinirani trošak inputa i outputa)
  4. Efektivni kontekst (koliko long-context model stvarno koristi, ne nominalna granica)
  5. Kvaliteta (math, code, reasoning, ne samo MMLU prosjek)

Sintetizirano u tri kompozitna pokazatelja: energetska efikasnost, cijena po točnom odgovoru i vjernost krajnje točke.

Koje su iznenađujuće razlike Token Arena otkrila?

Mjerenje na 78 endpointa kroz 12 model familija otkrilo je razlike koje su veće nego što industrijski narativ sugerira:

  • Do 12,5 bodova razlike u kvaliteti za isti model na različitim endpointima na math/code benchmarcima
  • Red veličine razlike u tail latenciji (p99) — neki endpointi su 10× sporiji u worst-case slučaju
  • Faktor 6,2 razlike u jouleima po točnom odgovoru

Posljednja brojka je možda najznačajnija. Ako se dva endpointa istog modela razlikuju 6,2× u energiji koja je potrebna da se generira točan odgovor, izbor pružatelja postaje pitanje sustainability strategije, ne samo cijene. Carbon footprint AI inference operacija u 2026. više nije triavalan; razlike između endpointa znače da neki AI deployment-i emitiraju gotovo sedam puta više CO₂ od drugih za isti rezultat.

Što ovo znači za enterprise odluke o pružatelju?

Glavna posljedica: endpoint matters more than model name. Tim koji odabere pružatelja samo na temelju cijene po tokenu može završiti s 12,5 bodova lošijom kvalitetom ili 6× većim energetskim trošakom — a ne znati to bez benchmarkinga koji obuhvaća sve pet dimenzija.

Token Arena je objavljena pod CC BY 4.0 licencom, što znači da druge organizacije mogu re-koristiti rezultate i metodologiju. To je rijetko za AI benchmarke — većina komercijalnih benchmark suite-ova ostaje pod restriktivnim licencama. Otvorena licenca podržava ekosistem nezavisnih reproducibility studija.

Rad je dostupan na ArXiv pod ID-om 2605.00300.

Česta pitanja

Što Token Arena mjeri što drugi benchmarci ne mjere?
Pet dimenzija performansi istovremeno: brzina izlaza, vrijeme do prvog tokena, blendirana cijena, efektivni kontekst i kvaliteta — sve to na razini krajnjih točaka (specifičnih kombinacija pružatelja, modela i konfiguracije), ne na razini modela.
Koliko se isti model razlikuje između različitih endpointa?
Do 12,5 bodova razlike na math/code benchmarcima, do reda veličine u tail latenciji i do 6,2× u energetskoj efikasnosti — sve na istom modelu posluženom kroz različite pružatelje ili konfiguracije.
Zašto je 'endpoint' pravi mjerni objekt umjesto samog modela?
Jer je endpoint stvarna jedinica koju aplikacija konzumira. Isti GPT-4 ili Llama 3 model može imati drastično različite latencije, cijene i točnosti ovisno o pružatelju, kvantizaciji, batch konfiguraciji i hardware backendu.