DeepMind: AI agenti — prijetnja su greške, ne hakeri

Q: Što je MITRE ATT&CK i zašto ga DeepMind koristi za agente?

MITRE ATT&CK je standardizirani okvir za klasifikaciju tehnika i taktika napada koji sigurnosna zajednica koristi za sustavno opisivanje prijetnji; DeepMind ga primjenjuje na AI agente kako bi strukturirano mapirao potencijalne vektore napada i gradio obrane po poznatoj metodologiji.

Q: Koji su tri ključna mjerila DeepMindovog sustava nadzora?

Sustav mjeri pokrivenost (coverage — koliki postotak incidentnih scenarija je nadziran), opoziv (recall — koliki udio stvarnih incidenata sustav detektira) i vrijeme odgovora (time-to-response — koliko brzo sustav reagira na detektirani incident).

Google DeepMind analizirao je milijun agent coding trajektorija i otkrio da više od 50% flaggiranih sigurnosnih incidenata kod AI agenata potječe od pogrešnog tumačenja zadataka ili prerevnosti modela, a ne od vanjskih adversarijalnih napada, što mijenja prioritete u obrani.

Google DeepMind objavio je sveobuhvatnu analizu sigurnosnih izazova AI agenata temeljenu na pregledu 1 milijuna agent coding trajektorija — zapisanih sekvenci radnji koje autonomni modeli poduzimaju pri rješavanju programerskih zadataka. Nalaz koji mijenja dosadašnje pretpostavke industrije: više od 50% flaggiranih sigurnosnih incidenata nije posljedica adversarijalnih napada, već pogrešnog tumačenja zadataka ili prekomjerne revnosti samih modela.

Kako radi defense-in-depth za AI agente

Defense-in-depth — sigurnosna strategija koja kombinira višestruke neovisne slojeve zaštite — u DeepMindovoj izvedbi za agente obuhvaća tri razine. Prva je tradicionalni sandboxing: izolacija agentovog izvršnog okruženja kako bi se spriječilo neovlašteno djelovanje izvan zadanog opsega. Druga razina je MITRE ATT&CK threat modeling — primjena standardiziranog okvira za klasifikaciju tehnika napada koji sigurnosna zajednica inače koristi za ljudske hakere, sada adaptiranog za AI agente koji se tretiraju kao “insider threats”, odnosno interne prijetnje s privilegiranim pristupom. Treća razina je nadzorni AI (supervisor): poseban model koji u realnom vremenu prati ponašanje primarnog agenta i detektira anomalije.

Gemini Spark live monitor i ključne metrike

DeepMind je izradio live monitoring sustav specifično za Gemini Spark agenta — produkcijskog agenta namijenjenoga za coding zadatke. Sustav mjeri tri ključne metrike: coverage (pokrivenost scenarija prijetnji), recall (udio stvarnih incidenata koji se detektiraju) i time-to-response (brzina reakcije). Detalji o konkretnim vrijednostima tih metrika nisu javno objavljeni, no metodologija je izložena kao referentni okvir koji drugi timovi mogu primjenjivati.

Što to znači za razvoj sigurnih agenata

Nalaz da prevladavaju greške, a ne napadi, ima praktične implikacije za dizajn sustava. Umjesto da resurse ulažu primarno u obranu od vanjskih aktera, razvojni timovi moraju prioritizirati robusno tumačenje korisničkih namjera i mehanizme kojima agent prepoznaje granice svog ovlaštenja. DeepMind ističe da agenti imaju sličan profil rizika kao privilegirani interni korisnici — ne kao vanjski napadači — što znači da klasični perimetarski sigurnosni modeli nedovoljno adresiraju stvarne uzroke incidenata. Pristup je dizajniran da bude skalabilan s porastom autonomije modela i složenosti zadataka koji se delegiraju agentima.

Tehnička pozadina

Analiza milijun trajektorija omogućila je statističke zaključke koji nisu dostupni pri manjim uzorcima: razlika između “agent misinterpretation” (pogrešno tumačenje upute) i “agent overeagerness” (prerevnost u izvršenju) postaje vidljiva tek pri dovoljno velikom skupu podataka. Usporedba s adversarijalnim napadima (<50% ukupnih flagova) ukazuje da je trenutna industrija potcijenila unutarnje uzroke incidenata.

Česta pitanja

Što je MITRE ATT&CK i zašto ga DeepMind koristi za agente?

MITRE ATT&CK je standardizirani okvir za klasifikaciju tehnika i taktika napada koji sigurnosna zajednica koristi za sustavno opisivanje prijetnji; DeepMind ga primjenjuje na AI agente kako bi strukturirano mapirao potencijalne vektore napada i gradio obrane po poznatoj metodologiji.

Koji su tri ključna mjerila DeepMindovog sustava nadzora?

Sustav mjeri pokrivenost (coverage — koliki postotak incidentnih scenarija je nadziran), opoziv (recall — koliki udio stvarnih incidenata sustav detektira) i vrijeme odgovora (time-to-response — koliko brzo sustav reagira na detektirani incident).

Google DeepMind: Više od 50% sigurnosnih incidenata agenata su greške, ne napadi

Kako radi defense-in-depth za AI agente

Gemini Spark live monitor i ključne metrike

Što to znači za razvoj sigurnih agenata

Tehnička pozadina

Česta pitanja

Izvori

Povezane vijesti