Koliki je konkretno efekt infrastrukture na rezultate?

Na Terminal-Bench 2.0 razlika između najbolje i najlošije resurseske konfiguracije iznosi 6 postotnih bodova (p < 0,01). Na SWE-benchu efekt je manji — 1,54 postotna boda kroz 5x RAM varijaciju.

Koja je optimalna razina resursa?

3x resource headroom je 'sweet spot' — smanjuje infra greške s 5,8 na 2,1 posto (p < 0,001) i održava stabilnost rezultata. Strogo ograničavanje na točno jedne vrijednosti daje previše šuma.

Koji zaključak autori izvlače za AI zajednicu?

Razlike ispod 3 postotna boda na leaderboardima nisu statistički značajne bez dokumentirane i uparene infrastruktorne konfiguracije. Eval config mora biti first-class eksperimentalna varijabla.

Anthropic: infrastrukturni šum mijenja rezultate agentskih benchmarka do 6 postotnih bodova

Q: Koja je optimalna razina resursa?

3x resource headroom je 'sweet spot' — smanjuje infra greške s 5,8 na 2,1 posto (p < 0,001) i održava stabilnost rezultata. Strogo ograničavanje na točno jedne vrijednosti daje previše šuma.

Q: Koji zaključak autori izvlače za AI zajednicu?

Razlike ispod 3 postotna boda na leaderboardima nisu statistički značajne bez dokumentirane i uparene infrastruktorne konfiguracije. Eval config mora biti first-class eksperimentalna varijabla.

Tim Anthropic istraživača koje predvodi Gian Segato, s doprinosima Nicholasa Carlinija, Jeremyja Hadfielda, Mikea Merrilla i Alexa Shawa, objavio je 17. travnja 2026. detaljnu studiju “Quantifying Infrastructure Noise in Agentic Coding Evals”. Rezultati otkrivaju ozbiljan metodološki problem koji utječe na interpretaciju gotovo svakog AI benchmarka.

Glavno otkriće

Infrastrukturna konfiguracija — konkretno količina dodijeljenog RAM-a i CPU headroom — može promijeniti rezultate agentskih coding benchmarka za 6 postotnih bodova. To je više nego što je trenutno razlika između top modela na glavnim leaderboardima.

Istraživači formuliraju direktnu tvrdnju: “The gap between the most- and least-resourced setups on Terminal-Bench 2.0 was 6 percentage points (p < 0.01).”

Testirani benchmarci

Studija je koristila dva standardna testa:

Terminal-Bench 2.0 — primarni fokus, mjeri agentsku coding sposobnost u terminal okolini
SWE-bench — crossover validacija na 227 zadataka

Rezultati su asimetrični: Terminal-Bench 2.0 ima snažan efekt (6 pp), dok je SWE-bench manje osjetljiv (1,54 pp kroz 5x RAM varijaciju). To sugerira da specifična struktura zadataka i alata utječe na to koliko je benchmark “šumlan”.

Strogo ograničavanje pogoršava problem

Intuicija bi mogla biti: “Pa samo svima damo iste resurse i riješimo problem.” Ali podaci pokazuju suprotno:

Strogo ograničavanje (točna fiksna vrijednost za sve): infra error rate 5,8%
Uncapped resources (neograničeno): infra error rate 0,5%

Drugim riječima, striktna uniformnost zapravo diže šum, ne smanjuje ga, jer rubni zadaci koji pređu limit puknu.

Sweet spot: 3x resource headroom. Taj dizajn smanjuje infra greške na 2,1 posto (p < 0,001), a istovremeno održava konzistentnost rezultata. Ideja je da svaki zadatak ima “floor” (garantirano) i “ceiling” (kill threshold), umjesto jednog pinane broja.

Šum floor i interpretacija leaderboarda

Najoštrija poruka autora je za AI zajednicu koja komentira male razlike između modela:

“Leaderboard differences below 3 percentage points deserve skepticism until the eval configuration is documented and matched.”

Razlog je statistički: binomne intervali povjerenja već pokrivaju 1-2 postotna boda nezavisno od bilo kojeg infra efekta. Kada na to dodate infrastrukturne konfoundere od još 6 pp, prirodna nesigurnost mjerenja je 8-ak pp u najgorim slučajevima.

Pet konkretnih preporuka

Istraživači završavaju konkretnom listom za evaluatore:

Specificirajte i garantiranu alokaciju i hard kill threshold po zadatku (ne jednu pinane vrijednost)
Kalibrirajte jaz tako da floor i ceiling score padaju unutar statističkog šuma
Eksplicitno raportirajte methodology enforcementa
Dokumentirajte resource specifikacije kao first-class eksperimentalne varijable
Pokrenite evaluacije kroz više dana za usrednjavanje temporalnog šuma (API latencija, varijacije u zdravlju klastera)

Zašto je ovo važno za industriju

Temeljni zaključak autora: “A 2-point lead on a leaderboard might reflect a genuine capability difference, or it might reflect that one eval ran on beefier hardware, or even at a luckier time of day.”

Za AI zajednicu to znači potrebu za strukturiranijom infrastrukturnom dokumentacijom pri objavljivanju rezultata. Benchmarci koji se objavljuju bez precizne konfiguracije RAM-a, CPU-a, API headera i vremenskog prozora — a to je većina njih — imaju šum koji može potpuno pokopati nominalne razlike u kvaliteti modela.

Anthropicov rad dolazi u trenutku kada se razlike između modela mjere u jednom postotnom bodu, a marketing te razlike predstavlja kao revolucionarne. Studija pokazuje zašto je tu potreban znatno veći oprez.