🟡 🏥 U praksi četvrtak, 30. travnja 2026. · 3 min čitanja ·

EvalEval Coalition: AI evaluacija postaje novi compute bottleneck — GAIA single run $2.829, HAL leaderboard $40.000, akademski auditori udaraju u budžetski zid prije tehničkog

Editorial illustration: vaga koja preteže prema evaluacijskim troškovima u odnosu na trening troškove

EvalEval Coalition (Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen) objavila je 29. travnja 2026. analizu na HuggingFace blogu koja pokazuje kako su troškovi evaluacije AI modela eksplodirali. Pojedinačan GAIA run košta $2.829, HAL leaderboard $40.000 (k=8 reliability $320.000), PaperBench oko $9.500 po agentu. Statički benchmarci se kompresiraju 100-200×, agentski samo 2-3.5× — accountability barrier za nezavisne auditore.

EvalEval Coalition (Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen) objavila je 29. travnja 2026. detaljnu analizu na HuggingFace blogu koja pomiče raspravu o AI compute s treninga na evaluaciju — i pokazuje da se ekonomika obrnula.

Konkretni troškovi

Brojke za pojedinačne evaluacije frontier modela 2026. godine:

BenchmarkCijena
GAIA (single run)$2.829
Online Mind2Web (Browser-Use + Claude Sonnet 4)$1.577 za 40% accuracy
HAL (Holistic Agent Leaderboard, full)$40.000 za 21,730 rolloutova
HAL s 8-run reliability~$320.000
PaperBench (full)~$9.500 po agentu
The Well (full sweep)~$9.600
MLE-Bench (1 seed)~$5.500

Za usporedbu: HELM (2022) je ukupno koštao oko $100.000 za sve modele kroz sve scenarije. 2026. godine jedan single benchmark (HAL s reliability) prijeđe taj iznos.

Kompresija benchmarka — što radi za statičke ne radi za agentske

TipMax kompresijaRangiranje očuvano
Statički LLM benchmarci100-200×
Agentski benchmarci2-3.5×Djelomično
Training-in-loop~1× (nemoguće)

Flash-HELM, tinyBenchmarks i Anchor Points uspješno reduciraju statički eval na 1% veličine bez gubitka rangiranja. Za agente jedino mid-difficulty filtering daje 2-3.5× — multi-step interakcije se ne mogu jednostavno sub-sample-irati.

Accountability barrier

Možda najvažniji argument članka:

“Akademske grupe, AI Safety Instituti i novinari sad udaraju u budžetsku prepreku prije tehničke kad pokušavaju nezavisno evaluirati frontier agente. Single GAIA run može preći godišnji travel budžet doktoranta.”

Specifične brojke:

  • Tri-seed usporedba šest modela: preko $150.000
  • HAL k=8 reliability: $320.000
  • PaperBench s LLM judge: ~$9.500 po agentu

Sukob: ako samo frontier labovi mogu priuštiti statistički pouzdanu evaluaciju, socijalni proces evaluacije AI sustava se koncentrira unutar istih labova koji ih grade. Vanjska validacija postaje partijalna ili odsutna.

Reliability multiplier i leakage

Studija dokumentira i drugi problem: single-run accuracy je statistički nepouzdana.

  • τ-bench primjer: drop s 60% (single) na 25% (8-run consistency)
  • Holdout leakage: 12 od 17 agent benchmarka propalo holdout kriterij
  • TAU-bench data poisoning otkriven u prosincu 2025., zahtijevao uklanjanje

Pravilan k=8 reliability test multiplicira sve troškove .

Predložena rješenja

EvalEval Coalition predlaže tri pravca:

  1. Standardizirano data sharing — unificirana metadata schema s konverterima za HELM, lm-eval-harness, Inspect AI (evaleval/EEE_datastore)
  2. Pareto-efficient leaderboardi — accuracy uz trošak, ne accuracy sam
  3. Mid-difficulty filtering — best-effort 2-3.5× kompresija za agente

Zašto je to važno?

Članak je policy-relevantan. EU AI Act, NIST AI RMF, UK AISI evaluation framework — svi pretpostavljaju dostupnu nezavisnu evaluaciju. Ako evaluacija košta više od research grant-a, regulacija je samo na papiru.

“Whoever can pay for the evaluation gets to write the leaderboard.”

Praktično za AI governance:

  • Budžetiranje evaluacije kao core governance funkcije, ne kao tehnički trošak
  • Financiranje independent evaluation infrastructure (npr. AISI, NIST budžeti)
  • Reliability reporting (pass^k) kao regulatorni standard
  • Razmatranje eval troška pri postavljanju compliance zahtjeva

Česta pitanja

Koliko stvarno košta evaluirati frontier model?
GAIA single run: $2,829. Online Mind2Web (Browser-Use + Claude Sonnet 4): $1,577 za 40% accuracy. Holistic Agent Leaderboard (HAL) full: $40,000 za 21,730 rolloutova preko 9 modela i 9 benchmarka. HAL s 8-run reliability: ~$320,000. PaperBench (full): ~$9,500 po agentu.
Zašto se agentski benchmarci ne kompresiraju kao statički?
Statički LLM benchmarci (HELM, tinyBenchmarks, Anchor Points) postižu 100-200× kompresiju uz očuvanje rangiranja. Agentski benchmarci postižu samo 2-3.5× (mid-difficulty filtering) jer agent benchmarci uključuju multi-step interakciju koja ne dopušta jednostavnu sub-sample reduction bez gubitka informacije.
Što je 'accountability barrier'?
Akademske grupe, AI Safety Instituti i novinari sad udaraju u **budžetsku** prepreku prije tehničke kad pokušavaju nezavisno evaluirati frontier agente. Single GAIA run može preći godišnji travel budžet doktoranta. To znači da samo frontier labovi koji proizvode modele mogu sebi priuštiti vjerodostojne evaluacije, što sužava nezavisni audit.
🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.