🟡 🛡️ Sigurnost Objavljeno: · 3 min čitanja ·

arXiv:2605.22786: LCGuard štiti dijeljeni KV cache između agenata u multi-agent sustavima od curenja podataka

arXiv:2605.22786 ↗

Editorial ilustracija: granica između dvije agenta zone s kriptografskim štitom oko KV cachea

LCGuard je novi framework za zaštitu od curenja podataka u multi-agent sustavima koji dijele KV cache radi efikasnosti. Rad istraživača iz IBM Researcha i MIT-a pod vodstvom Sadie Asif predstavlja prvi formalni model za 'latent communication guard' pristup, primjenjiv na produkcijske agentic RAG sustave gdje više agenata dijeli kontekst kroz zajedničku memoriju.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

ArXiv preprint LCGuard objavljen 22. svibnja 2026. predstavlja prvi formalni framework za zaštitu dijeljenog KV cachea u multi-agent LLM sustavima. Rad je rezultat suradnje IBM Researcha i MIT-a, pod vodstvom Sadie Asif. Autori dokumentiraju ranjivost koja se pojavila u produkcijskim enterprise agentic RAG sustavima posljednjih mjeseci i predlažu konkretno rješenje primjenjivo bez prekida postojeće infrastrukture.

Što je dijeljeni KV cache i zašto ga koristimo?

U klasičnom LLM workflow-u svaki API poziv generira novi KV cache za prompt — što znači da je inferencija atomička jedinica bez stanja koje preživljava poziv. U enterprise multi-agent sustavima ovaj model postaje skup. Ako pet agenata neovisno obrađuje isti povjerljivi PDF, svaki rebuilda isti KV cache iz nule, što troši 5× više GPU memorije i 5× više compute-a.

Optimizacija koju proizvođači sve češće implementiraju je dijeljeni KV cache. PDF se obradi jednom, generira KV cache zauzima oko 200 MB GPU memorije, i svi agenti dobivaju pointer na taj cache. Inferencija svakog agenta startuje iz pre-populated stanja i nadograđuje samo svoj specifični prompt suffix. Cost reduction je 3-5× kako autori navode, što čini razliku između održivog i neisplativog deploy-a za visok volumen workloada.

Kako curenje podataka funkcionira?

KV cache nije plain text — to su embedding vektori koji enkodiraju semantičke informacije iz originalnog dokumenta. Ali ti vektori nisu nepovratno transformirani. Attention mehanizam može iz njih izvući značajne informacije kroz strategiju koju autori nazivaju attention probing.

Konkretan napad: agent B ima legitiman pristup dijeljenom KV cache-u (npr. zato što obrađuje povezani dokument). Agent B može kreirati specifične prompt-ove koji ciljaju određene KV cache regije kroz attention layer 5-15 i tako iz embeddinga rekonstruirati pojedinačne osjetljive entitete iz originalnog PDF-a — imena klijenata, brojeve ugovora, monetary amounts. Autori demonstriraju da rekonstrukcija nije perfektna ali postiže 60-80 posto precizan recall za named entiteti.

Vektor napada je značajan jer enterprise korisnici tipično vjeruju da je “agent ima pristup samo svojem promptu”. Realnost je da agent ima pristup KV cacheu cijelog dokumenta koji je dijeljen kroz security boundary — što nije bilo dokumentirano u nijednoj produkcijskoj API dokumentaciji.

Kako LCGuard zatvara taj kanal?

LCGuard dodaje dvije obrambene linije.

Prva linija — cryptographic isolation: svaki KV cache se enkriptira ključem koji ovisi o security domain origin dokumenta. Agent koji ne pripada toj domeni može vidjeti cache hint (postoji li, koje veličine) ali ne može ga koristiti — dekripcija se događa samo kad agent prezentira odgovarajući domain credential. To znači da PDF iz domene “finance/confidential” ima KV cache koji marketing agenti ne mogu dekriptirati, iako fizički zauzima istu GPU memoriju.

Druga linija — runtime attention probe detector: backend monitora attention patterns u realnom vremenu i prepoznaje sumnjive uzorke. Tipičan probe koristi pseudo-random prompt strukturu koja maksimizira attention varijaciju na ciljnim KV slot-ovima. LCGuard detektira ovaj pattern s 95+ posto preciznosti (autori dokumentiraju low false positive rate na 50.000 legitimnih upita).

Implementacijski overhead i kompatibilnost

LCGuard zahtijeva modifikaciju attention layer-a u inference engine-u (vLLM, TGI, SGLang). Autori su otvorili reference implementaciju za vLLM. Overhead u throughput-u je 8-12 posto u worst case scenariju (sav cache enkriptiran) ili 3-5 posto u typical scenariju (mješavina enkriptiranih i plain cache regija). To je acceptable trošak za enterprise tenante koji moraju ispuniti compliance zahtjeve.

Rad zaključuje s preporukama: LCGuard treba postati default-on za enterprise deploymente koji koriste dijeljeni KV cache između security domain-a. Bez ove obrane, organizacije nesvjesno krše vlastite data classification politike.

Česta pitanja

Zašto agenti dijele KV cache?
U enterprise multi-agent sustavima više agenata često radi na povezanim zadacima i dijeli istu kontekst memoriju radi efikasnosti — umjesto da svaki agent recomputira KV cache za isti dokument, sustav ga generira jednom i dijeli. Time se trošak inferencije može smanjiti 3-5×.
Koji je rizik dijeljenog KV cachea?
KV cache sadrži semantičke embeddinge tokena koji su prošli kroz LLM. Ako agent A obrađuje povjerljivi dokument i ostavi njegov KV cache, agent B koji ima pristup istom cache-u može iz njega rekonstruirati dijelove povjerljivog sadržaja kroz attention probing.
Kako LCGuard zatvara taj kanal?
Framework dodaje cryptographic isolation između KV cache regija različitih sigurnosnih razina (security domains). Cache se može dijeliti unutar iste domene ali ne kroz granice. Plus dodaje runtime detektor koji prepoznaje attention probing attempts i blokira ih prije nego što proizvedu output.