ArXiv Token Arena: kontinuirani benchmark koji ujedinjuje energiju i kogniciju, otkriva 6,2× razliku u jouleima po točnom odgovoru između endpointa
Yuxuan Gao, Megan Wang i Yi Ling Yu objavili su 1. svibnja 2026. Token Arenu — neprekidnu benchmarking platformu koja evaluira AI inference na razini krajnjih točaka (78 endpointa, 12 model familija). Otkrivaju da isti model na različitim endpointima može varirati do 12,5 bodova na math/code benchmarku, do reda veličine u tail latenciji i do faktora 6,2 u jouleima po točnom odgovoru. Platforma objavljuje rezultate pod CC BY 4.0 licencom.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Tim Yuxuan Gao, Megan Wang i Yi Ling Yu objavio je 1. svibnja 2026. na ArXiv-u Token Arenu — kontinuiranu benchmarking platformu koja evaluira AI inference na razini krajnjih točaka. Cilj rada je ujediniti dimenzije energije i kognicije u jednom mjernom okviru.
Što Token Arena mjeri što drugi benchmarci propuštaju?
Standardni AI benchmarci (MMLU, HumanEval, GSM8K) mjere kvalitetu modela u idealnim laboratorijskim uvjetima — bez energetskih, troškovnih ili latencijskih dimenzija. Token Arena pristupa drugačije: mjeri specifičnu kombinaciju pružatelja, modela i konfiguracije kao osnovnu jedinicu mjerenja.
Razlog: u stvarnoj produkciji aplikacija ne konzumira “model X” — konzumira endpoint kod određenog pružatelja s određenom kvantizacijom, određenim batch settingom i određenim hardware backendom. Isti GPT-4 model na razini Open Routera može biti desetak puta brži ili pet puta jeftiniji nego direktno preko OpenAI API-ja, ovisno o ruti.
Platforma evaluira pet dimenzija istovremeno:
- Brzina izlaza (output throughput, tokens/sec)
- Vrijeme do prvog tokena (TTFT, kritično za interaktivne aplikacije)
- Blendirana cijena (kombinirani trošak inputa i outputa)
- Efektivni kontekst (koliko long-context model stvarno koristi, ne nominalna granica)
- Kvaliteta (math, code, reasoning, ne samo MMLU prosjek)
Sintetizirano u tri kompozitna pokazatelja: energetska efikasnost, cijena po točnom odgovoru i vjernost krajnje točke.
Koje su iznenađujuće razlike Token Arena otkrila?
Mjerenje na 78 endpointa kroz 12 model familija otkrilo je razlike koje su veće nego što industrijski narativ sugerira:
- Do 12,5 bodova razlike u kvaliteti za isti model na različitim endpointima na math/code benchmarcima
- Red veličine razlike u tail latenciji (p99) — neki endpointi su 10× sporiji u worst-case slučaju
- Faktor 6,2 razlike u jouleima po točnom odgovoru
Posljednja brojka je možda najznačajnija. Ako se dva endpointa istog modela razlikuju 6,2× u energiji koja je potrebna da se generira točan odgovor, izbor pružatelja postaje pitanje sustainability strategije, ne samo cijene. Carbon footprint AI inference operacija u 2026. više nije triavalan; razlike između endpointa znače da neki AI deployment-i emitiraju gotovo sedam puta više CO₂ od drugih za isti rezultat.
Što ovo znači za enterprise odluke o pružatelju?
Glavna posljedica: endpoint matters more than model name. Tim koji odabere pružatelja samo na temelju cijene po tokenu može završiti s 12,5 bodova lošijom kvalitetom ili 6× većim energetskim trošakom — a ne znati to bez benchmarkinga koji obuhvaća sve pet dimenzija.
Token Arena je objavljena pod CC BY 4.0 licencom, što znači da druge organizacije mogu re-koristiti rezultate i metodologiju. To je rijetko za AI benchmarke — većina komercijalnih benchmark suite-ova ostaje pod restriktivnim licencama. Otvorena licenca podržava ekosistem nezavisnih reproducibility studija.
Rad je dostupan na ArXiv pod ID-om 2605.00300.
Česta pitanja
- Što Token Arena mjeri što drugi benchmarci ne mjere?
- Pet dimenzija performansi istovremeno: brzina izlaza, vrijeme do prvog tokena, blendirana cijena, efektivni kontekst i kvaliteta — sve to na razini krajnjih točaka (specifičnih kombinacija pružatelja, modela i konfiguracije), ne na razini modela.
- Koliko se isti model razlikuje između različitih endpointa?
- Do 12,5 bodova razlike na math/code benchmarcima, do reda veličine u tail latenciji i do 6,2× u energetskoj efikasnosti — sve na istom modelu posluženom kroz različite pružatelje ili konfiguracije.
- Zašto je 'endpoint' pravi mjerni objekt umjesto samog modela?
- Jer je endpoint stvarna jedinica koju aplikacija konzumira. Isti GPT-4 ili Llama 3 model može imati drastično različite latencije, cijene i točnosti ovisno o pružatelju, kvantizaciji, batch konfiguraciji i hardware backendu.
Povezane vijesti
ArXiv AgentFloor: mali open-weight modeli (0,27B-32B) zadovoljavaju kratkoročne agentne zadatke, GPT-5 zadržava prednost samo u dugoročnom planiranju
NIST CAISI: DeepSeek V4 Pro je najsposobniji kineski AI model do sada, ali zaostaje 8 mjeseci za američkim frontierom
AdaMeZO: fino ugađanje LLM-ova Adam-stilom bez pohrane momenata u GPU memoriji