arXiv:2606.04329: Trovanje memorije AI agenata

Sistematska studija trovanja perzistentne memorije AI agenata identificira četiri kanala za upis u memoriju, devet strukturnih ranjivosti i taksonomiju od šest klasa napada te uvodi benchmark MPBench. Ključni nalaz: agenti dizajnirani da agresivnije upisuju i dohvaćaju memoriju lakše su eksploatabilni, a postojeće obrane protiv prompt-injectiona ne pokrivaju trovanje memorije.

Što istražuje rad o trovanju memorije agenata?

Memory Poisoning Attacks on LLM Agents je sigurnosna studija objavljena 3. lipnja 2026. u 01:04 UTC na arXivu pod oznakom arXiv:2606.04329 (verzija v1) koja sistematski analizira trovanje perzistentne memorije AI agenata. Trovanje memorije (memory poisoning) je napad u kojem se u trajnu memoriju agenta ubacuje zlonameran sadržaj koji agent kasnije dohvaća i koristi pri odlučivanju. Rad je prva opsežna taksonomija ovog problema i nudi okvir za njegovo mjerenje i obranu.

Koji su kanali za upis u memoriju?

Studija identificira četiri kanala kroz koje napadač može upisati sadržaj u memoriju agenta. To su putevi kojima informacije dospijevaju u trajnu pohranu, primjerice kroz razgovor s korisnikom, kroz vanjske dokumente ili kroz rezultate alata koje agent koristi. Razumijevanje tih kanala ključno je jer svaki predstavlja zaseban ulaz koji obrana mora pokriti. Ako je makar jedan kanal nezaštićen, napadač može trajno iskriviti ponašanje agenta.

Koliko ranjivosti i klasa napada rad opisuje?

Rad nabraja devet strukturnih ranjivosti u načinu na koji agenti pohranjuju i dohvaćaju memoriju te ih organizira u taksonomiju od šest klasa napada. Strukturne ranjivosti odnose se na slabosti u samoj arhitekturi memorijskog sustava, neovisno o pojedinom modelu. Taksonomija od šest klasa napada daje istraživačima i graditeljima zajednički rječnik za opisivanje i usporedbu prijetnji, što olakšava razvoj ciljanih obrana.

Što je MPBench i čemu služi?

Za mjerenje otpornosti agenata studija uvodi benchmark nazvan MPBench. On omogućuje standardizirano testiranje napada i obrana protiv prepoznatih kanala upisa i ranjivosti. Bez zajedničke mjere teško je usporediti koliko su pojedini agenti ili obrambeni mehanizmi otporni na trovanje memorije. MPBench time postaje referentna točka za buduća istraživanja, slično kao što benchmarci za prompt-injection služe za mjerenje otpornosti na napade unutar jednog upita.

Koji je ključni nalaz studije?

Najvažniji rezultat jest da su agenti dizajnirani da agresivnije upisuju i dohvaćaju memoriju eksploatabilniji. Drugim riječima, što agent više oslanja svoje ponašanje na trajnu memoriju, to je ranjiviji na njezino trovanje. Taj nalaz stvara izravnu napetost između korisnosti, budući da bogata memorija čini agenta sposobnijim, i sigurnosti, jer ista ta memorija postaje napadna površina. Graditelji moraju pažljivo balansirati koliko se memorije koristi i kako se ona štiti.

Zašto postojeće obrane nisu dovoljne?

Studija upozorava da postojeće obrane protiv prompt-injectiona ne pokrivaju trovanje memorije. Prompt-injection djeluje unutar jednog upita i njegov utjecaj nestaje kad razgovor završi, dok trovanje memorije pogađa perzistentnu memoriju koja traje između sesija. Štetni zapis stoga ostaje aktivan dugoročno, i nakon što je izvorni napad gotov. Nalaz znači da sigurnosni timovi moraju razviti zasebne mehanizme zaštite memorije, a ne se oslanjati na alate dizajnirane za napade unutar jednog upita.

Česta pitanja

Što je trovanje memorije AI agenata?

Trovanje memorije (memory poisoning) je napad u kojem se u perzistentnu memoriju AI agenta ubacuje zlonameran ili pogrešan sadržaj. Budući da agent tu memoriju kasnije dohvaća i koristi pri donošenju odluka, otrovan zapis može iskriviti njegovo buduće ponašanje i nakon što je izvorni napad završio.

Po čemu se trovanje memorije razlikuje od prompt-injectiona?

Prompt-injection djeluje unutar jednog upita i njegov utjecaj nestaje kad razgovor završi. Trovanje memorije pogađa perzistentnu memoriju koja traje između sesija, pa štetni zapis ostaje aktivan dugoročno. Rad pokazuje da postojeće obrane protiv prompt-injectiona ne pokrivaju ovaj kanal.

Što je MPBench?

MPBench je benchmark koji uvodi ova studija za mjerenje otpornosti AI agenata na trovanje memorije. Omogućuje standardizirano testiranje različitih napada i obrana protiv četiri kanala upisa i devet strukturnih ranjivosti koje rad identificira.

arXiv:2606.04329: Trovanje memorije AI agenata — 9 ranjivosti i MPBench