Token Arena: 6,2× razlika u energiji po točnom odgovoru

Yuxuan Gao, Megan Wang i Yi Ling Yu objavili su 1. svibnja 2026. Token Arenu — neprekidnu benchmarking platformu koja evaluira AI inference na razini krajnjih točaka (78 endpointa, 12 model familija). Otkrivaju da isti model na različitim endpointima može varirati do 12,5 bodova na math/code benchmarku, do reda veličine u tail latenciji i do faktora 6,2 u jouleima po točnom odgovoru. Platforma objavljuje rezultate pod CC BY 4.0 licencom.

Tim Yuxuan Gao, Megan Wang i Yi Ling Yu objavio je 1. svibnja 2026. na ArXiv-u Token Arenu — kontinuiranu benchmarking platformu koja evaluira AI inference na razini krajnjih točaka. Cilj rada je ujediniti dimenzije energije i kognicije u jednom mjernom okviru.

Što Token Arena mjeri što drugi benchmarci propuštaju?

Standardni AI benchmarci (MMLU, HumanEval, GSM8K) mjere kvalitetu modela u idealnim laboratorijskim uvjetima — bez energetskih, troškovnih ili latencijskih dimenzija. Token Arena pristupa drugačije: mjeri specifičnu kombinaciju pružatelja, modela i konfiguracije kao osnovnu jedinicu mjerenja.

Razlog: u stvarnoj produkciji aplikacija ne konzumira “model X” — konzumira endpoint kod određenog pružatelja s određenom kvantizacijom, određenim batch settingom i određenim hardware backendom. Isti GPT-4 model na razini Open Routera može biti desetak puta brži ili pet puta jeftiniji nego direktno preko OpenAI API-ja, ovisno o ruti.

Platforma evaluira pet dimenzija istovremeno:

Brzina izlaza (output throughput, tokens/sec)
Vrijeme do prvog tokena (TTFT, kritično za interaktivne aplikacije)
Blendirana cijena (kombinirani trošak inputa i outputa)
Efektivni kontekst (koliko long-context model stvarno koristi, ne nominalna granica)
Kvaliteta (math, code, reasoning, ne samo MMLU prosjek)

Sintetizirano u tri kompozitna pokazatelja: energetska efikasnost, cijena po točnom odgovoru i vjernost krajnje točke.

Koje su iznenađujuće razlike Token Arena otkrila?

Mjerenje na 78 endpointa kroz 12 model familija otkrilo je razlike koje su veće nego što industrijski narativ sugerira:

Do 12,5 bodova razlike u kvaliteti za isti model na različitim endpointima na math/code benchmarcima
Red veličine razlike u tail latenciji (p99) — neki endpointi su 10× sporiji u worst-case slučaju
Faktor 6,2 razlike u jouleima po točnom odgovoru

Posljednja brojka je možda najznačajnija. Ako se dva endpointa istog modela razlikuju 6,2× u energiji koja je potrebna da se generira točan odgovor, izbor pružatelja postaje pitanje sustainability strategije, ne samo cijene. Carbon footprint AI inference operacija u 2026. više nije triavalan; razlike između endpointa znače da neki AI deployment-i emitiraju gotovo sedam puta više CO₂ od drugih za isti rezultat.

Što ovo znači za enterprise odluke o pružatelju?

Glavna posljedica: endpoint matters more than model name. Tim koji odabere pružatelja samo na temelju cijene po tokenu može završiti s 12,5 bodova lošijom kvalitetom ili 6× većim energetskim trošakom — a ne znati to bez benchmarkinga koji obuhvaća sve pet dimenzija.

Token Arena je objavljena pod CC BY 4.0 licencom, što znači da druge organizacije mogu re-koristiti rezultate i metodologiju. To je rijetko za AI benchmarke — većina komercijalnih benchmark suite-ova ostaje pod restriktivnim licencama. Otvorena licenca podržava ekosistem nezavisnih reproducibility studija.

Rad je dostupan na ArXiv pod ID-om 2605.00300.

Česta pitanja

Što Token Arena mjeri što drugi benchmarci ne mjere?

Pet dimenzija performansi istovremeno: brzina izlaza, vrijeme do prvog tokena, blendirana cijena, efektivni kontekst i kvaliteta — sve to na razini krajnjih točaka (specifičnih kombinacija pružatelja, modela i konfiguracije), ne na razini modela.

Koliko se isti model razlikuje između različitih endpointa?

Do 12,5 bodova razlike na math/code benchmarcima, do reda veličine u tail latenciji i do 6,2× u energetskoj efikasnosti — sve na istom modelu posluženom kroz različite pružatelje ili konfiguracije.

Zašto je 'endpoint' pravi mjerni objekt umjesto samog modela?

Jer je endpoint stvarna jedinica koju aplikacija konzumira. Isti GPT-4 ili Llama 3 model može imati drastično različite latencije, cijene i točnosti ovisno o pružatelju, kvantizaciji, batch konfiguraciji i hardware backendu.

ArXiv Token Arena: kontinuirani benchmark koji ujedinjuje energiju i kogniciju, otkriva 6,2× razliku u jouleima po točnom odgovoru između endpointa

Što Token Arena mjeri što drugi benchmarci propuštaju?

Koje su iznenađujuće razlike Token Arena otkrila?

Što ovo znači za enterprise odluke o pružatelju?

Česta pitanja

Izvori

Povezane vijesti