🤖 24 AI
🟡 🏥 U praksi subota, 18. travnja 2026. · 3 min čitanja

Anthropic: infrastrukturni šum mijenja rezultate agentskih benchmarka do 6 postotnih bodova

Zašto je bitno

Istraživači u Anthropicu dokazali su da konfiguracija RAM-a i CPU headrooma može promijeniti rezultate agentskih coding benchmarka za 6 postotnih bodova — više nego što je razlika između top modela na leaderboardu. Testirali su Terminal-Bench 2.0 i SWE-bench. Preporuka: prednosti ispod 3 postotna boda zaslužuju skepticizam dok se eval konfiguracija ne dokumentira i uskladi.

Tim Anthropic istraživača koje predvodi Gian Segato, s doprinosima Nicholasa Carlinija, Jeremyja Hadfielda, Mikea Merrilla i Alexa Shawa, objavio je 17. travnja 2026. detaljnu studiju “Quantifying Infrastructure Noise in Agentic Coding Evals”. Rezultati otkrivaju ozbiljan metodološki problem koji utječe na interpretaciju gotovo svakog AI benchmarka.

Glavno otkriće

Infrastrukturna konfiguracija — konkretno količina dodijeljenog RAM-a i CPU headroom — može promijeniti rezultate agentskih coding benchmarka za 6 postotnih bodova. To je više nego što je trenutno razlika između top modela na glavnim leaderboardima.

Istraživači formuliraju direktnu tvrdnju: “The gap between the most- and least-resourced setups on Terminal-Bench 2.0 was 6 percentage points (p < 0.01).”

Testirani benchmarci

Studija je koristila dva standardna testa:

  1. Terminal-Bench 2.0 — primarni fokus, mjeri agentsku coding sposobnost u terminal okolini
  2. SWE-bench — crossover validacija na 227 zadataka

Rezultati su asimetrični: Terminal-Bench 2.0 ima snažan efekt (6 pp), dok je SWE-bench manje osjetljiv (1,54 pp kroz 5x RAM varijaciju). To sugerira da specifična struktura zadataka i alata utječe na to koliko je benchmark “šumlan”.

Strogo ograničavanje pogoršava problem

Intuicija bi mogla biti: “Pa samo svima damo iste resurse i riješimo problem.” Ali podaci pokazuju suprotno:

  • Strogo ograničavanje (točna fiksna vrijednost za sve): infra error rate 5,8%
  • Uncapped resources (neograničeno): infra error rate 0,5%

Drugim riječima, striktna uniformnost zapravo diže šum, ne smanjuje ga, jer rubni zadaci koji pređu limit puknu.

Sweet spot: 3x resource headroom. Taj dizajn smanjuje infra greške na 2,1 posto (p < 0,001), a istovremeno održava konzistentnost rezultata. Ideja je da svaki zadatak ima “floor” (garantirano) i “ceiling” (kill threshold), umjesto jednog pinane broja.

Šum floor i interpretacija leaderboarda

Najoštrija poruka autora je za AI zajednicu koja komentira male razlike između modela:

“Leaderboard differences below 3 percentage points deserve skepticism until the eval configuration is documented and matched.”

Razlog je statistički: binomne intervali povjerenja već pokrivaju 1-2 postotna boda nezavisno od bilo kojeg infra efekta. Kada na to dodate infrastrukturne konfoundere od još 6 pp, prirodna nesigurnost mjerenja je 8-ak pp u najgorim slučajevima.

Pet konkretnih preporuka

Istraživači završavaju konkretnom listom za evaluatore:

  1. Specificirajte i garantiranu alokaciju i hard kill threshold po zadatku (ne jednu pinane vrijednost)
  2. Kalibrirajte jaz tako da floor i ceiling score padaju unutar statističkog šuma
  3. Eksplicitno raportirajte methodology enforcementa
  4. Dokumentirajte resource specifikacije kao first-class eksperimentalne varijable
  5. Pokrenite evaluacije kroz više dana za usrednjavanje temporalnog šuma (API latencija, varijacije u zdravlju klastera)

Zašto je ovo važno za industriju

Temeljni zaključak autora: “A 2-point lead on a leaderboard might reflect a genuine capability difference, or it might reflect that one eval ran on beefier hardware, or even at a luckier time of day.”

Za AI zajednicu to znači potrebu za strukturiranijom infrastrukturnom dokumentacijom pri objavljivanju rezultata. Benchmarci koji se objavljuju bez precizne konfiguracije RAM-a, CPU-a, API headera i vremenskog prozora — a to je većina njih — imaju šum koji može potpuno pokopati nominalne razlike u kvaliteti modela.

Anthropicov rad dolazi u trenutku kada se razlike između modela mjere u jednom postotnom bodu, a marketing te razlike predstavlja kao revolucionarne. Studija pokazuje zašto je tu potreban znatno veći oprez.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.