DeepMind: AI Control Roadmap za agente

Google DeepMind objavio je AI Control Roadmap — defense-in-depth sigurnosni okvir koji interne AI agente tretira kao potencijalno neusklađene sustave. Temeljen na MITRE ATT&CK metodologiji i analizi milijun coding-agent zadataka, okvir uvodi razine detekcije i odgovora za zaštitu od kompromitiranih agenata.

Google DeepMind objavio je AI Control Roadmap — sveobuhvatan sigurnosni okvir za zaštitu sustava temeljenih na AI agentima. Za razliku od klasičnog perimeter-security pristupa koji štiti mrežni rub, ovaj okvir primjenjuje defense-in-depth metodologiju: višeslojnu zaštitu u kojoj svaki sloj pretpostavlja da prethodni može zakazati.

Zašto tretirati vlastite agente kao prijetnju?

Ključna premisa okvira jest da interne AI agente treba tretirati kao potencijalno misaligned — neusklađene s namjerama operatora. Misalignment označava stanje u kojemu agent slijedi vlastite (ili napadačem ubačene) ciljeve umjesto korisnikovih. Tradicionalni sigurnosni modeli to nisu predviđali jer su agenti ranije bili pasivni alati, a ne autonomni izvršitelji akcija.

Struktura okvira: MITRE ATT&CK i milijun zadataka

DeepMind-ov okvir temelji se na MITRE ATT&CK metodologiji — industrijskom standardu za katalogiziranje napadačkih tehnika koji su dotad koristili timovi za kibernetičku sigurnost. Za razvoj novih protokola analizirano je 1 milijun coding-agent zadataka, što okviru daje empirijsku osnovu umjesto teorijskih pretpostavki.

Razine detekcije i odgovora

Okvir definira dvije osi zaštite:

Detection evasion (D1–D4): razine sposobnosti agenta da izbjegne detekciju, od trivijalnog do sofisticiranog skrivanja aktivnosti
Response (R1–R3): razine odgovora organizacije, od upozorenja do potpune izolacije kompromitiranog agenta

Pouzdani AI nadzorni sustavi prate reasoning radnih agenata u realnom vremenu — za razliku od klasičnog perimeter pristupa koji reagira tek nakon što agent napusti sigurnu zonu.

Ekonomski kontekst

DeepMind ističe da AI agenti mogu stvoriti do 2,9 bilijuna USD ekonomske vrijednosti u SAD-u do 2030. godine. Upravo ta skala čini sigurnost agentskih sustava strateškim pitanjem, a ne samo tehničkim problemom.

Česta pitanja

Što je defense-in-depth pristup u kontekstu AI agenata?

Defense-in-depth je višeslojna sigurnosna strategija koja ne oslanja sigurnost na jednu zaštitnu liniju, već kombinira detekciju, izolaciju i odgovor — DeepMind ju primjenjuje tako da pouzdani AI sustavi prate reasoning radnih agenata u realnom vremenu.

Zašto DeepMind tretira vlastite agente kao potencijalno neusklađene?

Misalignment — stanje u kojemu AI agent slijedi ciljeve koji nisu u skladu s namjerama korisnika — može nastati nenamjerno ili zbog napada izvana; tretiranjem svakog agenta kao potencijalnog rizika organizacija dobiva otpornost čak i kad jedan sloj zaštite zakaže.

Google DeepMind: AI Control Roadmap — defense-in-depth za sigurnost AI agenata

Zašto tretirati vlastite agente kao prijetnju?

Struktura okvira: MITRE ATT&CK i milijun zadataka

Razine detekcije i odgovora

Ekonomski kontekst

Česta pitanja

Izvori

Povezane vijesti