Britanski AISI: Evaluacije AI agenata moraju uzeti u obzir budžet računanja
Britanski AI Security Institute pokazuje da evaluacije AI agenata s fiksnim budžetom tokena sustavno podcjenjuju frontier sposobnosti. Povećanje budžeta s jednog na deset milijuna tokena podiže učinak do 25 posto na software-engineering zadacima i 22 posto na matematičkim testovima. AISI poziva regulatorna tijela da pređu s benchmark ocjena na krivulje sposobnosti koje uzimaju u obzir varijabilan budžet računanja.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Britanski AI Security Institute (AISI) objavio je istraživanje s dalekosežnim implikacijama za regulatorna tijela i sigurnosnu zajednicu: standardne evaluacije AI agenata, koje mjere performans pri fiksnom budžetu tokena, sustavno podcjenjuju stvarne sposobnosti frontier modela. Umjesto jedne benchmark ocjene, sposobnost agenata treba razumjeti kao krivulju — funkciju koja prati kako se učinak mijenja s dostupnim računalnim budžetom.
Sposobnost agenata ovisi o budžetu tokena
Istraživanje jasno pokazuje da nije dovoljno znati koliko agent postiže pri zadanom budžetu tokena. Ključno je razumjeti kako se taj učinak mijenja kad mu se daju veći resursi. Na software-engineering zadacima, povećanje budžeta s 1 milijuna na 10 milijuna tokena donijelo je poboljšanje od oko 25 posto. Na matematičkim i akademskim zadacima poboljšanje iznosi oko 22 posto. Te razlike nisu zanemarive — radi se o razlici između modela koji nije u stanju dovršiti zadatak i onoga koji ga rješava pouzdano i konzistentno.
Posebno indikativan nalaz dolazi iz domene kibernetičke sigurnosti: oko 8 posto svih testiranih cyber zadataka bilo je rješivo isključivo pri budžetu od 10 milijuna ili više tokena. Unutar standardnih evaluacijskih okvira koji koriste niže budžete, ti zadaci izgledaju nerješivo — čime regulatori i sigurnosni istraživači dobivaju iskrivljenu sliku stvarnog rizika koji frontier modeli predstavljaju.
Što zapravo mjere postojeće evaluacije?
Standardni benchmark testovi biraju fiksan budžet tokena i mjere koliko agenata uspješno rješava skup zadataka. Taj pristup ima fundamentalni metodološki problem: nije komparabilan između modela niti pouzdano pokazuje stvarne granice sposobnosti.
AISI je izmjerio da je horizont sposobnosti jednog frontier modela — definiran kao najduži zadatak koji model može pouzdano rješavati — narastao s 40 minuta na 4 sata kada je budžet povećan s 2,5 milijuna na 50 milijuna tokena. Ista razlika utječe i na procjene brzine napretka: frontier cyber sposobnosti udvostručuju se svako 4,7 mjeseci pri budžetu od 2,5 milijuna tokena. Pri budžetu od 50 milijuna tokena, ta stopa udvostručavanja ubrzava se za čak 60 posto — što znači da mjerimo potpuno različite razvojne putanje ovisno o tome gdje smo postavili evaluacijsku granicu.
Zahtjev za računanjem skalira s vremenom koje vještim ljudima treba za isti zadatak, prema power-law relaciji s eksponentom između 0,7 i 1,0. Zadaci koji stručnjaku traju sat vremena zahtijevaju milijune tokena; tjedni projekti zahtijevaju milijarde.
Noviji modeli nerazmjerno profitiraju od više računanja
Nalaz koji posebno zabrinjava sa sigurnosnog aspekta jest asimetrija između starijih i novijih modela. Noviji frontier modeli sustavno više profitiraju od povećanog budžeta računanja, i to kroz tri dimenzije:
- Doseg — sposobni su rješavati teže zadatke pri istom računalnom budžetu
- Pouzdanost — konzistentnije postižu uspjeh na rubnim i složenim slučajevima
- Efikasnost — isti zadatak rješavaju s manjim brojem tokena nego starije generacije
Ova kombinacija znači da standardizirani testovi ne samo podcjenjuju trenutne sposobnosti nego i iskrivljuju usporedbe između generacija modela. Stariji model može izgledati konkurentno pri niskom budžetu, dok noviji model daleko nadmašuje pri realnim budžetima koje korisnici koriste u produkciji. Evaluacijski okviri koji ne uzimaju u obzir ovu asimetriju sustavno netočno prikazuju relativni napredak.
Regulatorne implikacije fiksnih budžeta
AISI eksplicitno upozorava na strukturni problem s izravnim policy implikacijama. Procjene rizika temeljene na fiksnom budžetu ne mjere ono što tvrde da mjere — sustavno propuštaju visokovrijedne i visokorizične sposobnosti koje postaju dostupne tek na višim razinama računanja. Evaluacija s jednim budžetom može dovesti do nejednakih usporedbi između modela, navesti donositelje odluka na podcjenjivanje agenata i prikriti stvarnu skalu rizika.
Organizacije koje donose regulatorne okvire za AI — od nacionalnih vlada do međunarodnih tijela — moraju uzeti u obzir da benchmark ocjena modela nije jednoznačna veličina. Ona je funkcija računalnog budžeta koji je evaluator postavio. Bez eksplicitne specifikacije tog budžeta, usporedbe između modela metodološki su nepouzdane.
AISI predlaže prijelaz na pristup krivulje sposobnosti: mjeriti performans kroz niz budžetnih točaka, identificirati profile dosega, pouzdanosti i efikasnosti za svaki model, i tek na temelju cjelovite slike donositi zaključke o riziku. Za sigurnosne timove implikacija je jasna: model koji na evaluaciji nije pokazao sposobnost za određenu klasu napada možda je tu sposobnost skrivao iza budžetne granice evaluatora.
Česta pitanja
- Što je test-time compute i zašto je važan za evaluaciju?
- Test-time compute je količina računalnih resursa, mjerena u tokenima, koju AI agent koristi pri rješavanju zadatka. AISI pokazuje da veći budžet direktno podiže učinak, pa sposobnost treba mjeriti kao krivulju, a ne kao jednu benchmark ocjenu.
- Koliko poboljšanje donosi deset puta veći budžet tokena?
- Povećanje budžeta s 1M na 10M tokena donosi oko 25 posto poboljšanje na software-engineering zadacima i oko 22 posto na matematičkim i akademskim zadacima, prema AISI mjerenjima.
- Zašto je to važno za regulatorna tijela?
- Procjene rizika temeljene na fiksnom budžetu strukturno podcjenjuju stvarne sposobnosti modela. Noviji modeli nerazmjerno profitiraju od dodatnog računanja, što znači da standardizirani testovi mogu davati lažan osjećaj sigurnosti.