arXiv:2605.17634: Zašto separacija podataka i uputa ne može zaustaviti prompt injection?
Istraživači CISPA Helmholtz centra i Googlea matematički dokazuju da data/instruction separation — trenutno dominantna obrana od prompt injection napada — ne štiti od kontekstualnih manipulacija. Uz novi teorijski okvir temeljen na Contextual Integrity, predlažu fundamentalno drugačiji pristup dizajnu zaštite AI agenata.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Zašto separacija podataka i uputa ne može zaustaviti prompt injection?
Istraživači Sahar Abdelnabi (CISPA Helmholtz Center for Information Security) i Eugene Bagdasarian (Google) objavili su rad arXiv:2605.17634 koji dovodi u pitanje temeljnu pretpostavku današnje zaštite AI agenata.
Prompt injection je napad kojim zlonamjerni sadržaj iz okoline — dokument, web stranica, odgovor API-ja — podmećuje AI agentu skrivene upute i preuzima kontrolu nad njegovim akcijama. Dominantna obrana danas je data/instruction separation: razlikovanje pouzdanih korisničkih uputa od nepouzdanih vanjskih podataka, uz zabranu izvršavanja uputa koje dolaze iz podatkovnog kanala.
Autori matematički dokazuju da ovaj pristup ima fundamentalni limit. Napadač ne mora podmetnuti tekst koji izgleda kao uputa — dovoljno je manipulirati kontekstom situacije. Agent koji ispravno razlikuje podatke od uputa i dalje može biti naveden na pogrešnu akciju ako napadač konstruira legitimno izgledajući kontekst koji mijenja što agent smatra “prikladnom” radnjom.
Contextual Integrity kao novi teorijski okvir
Za formalizaciju problema autori uvode Contextual Integrity (CI) — okvir Helen Nissenbaum iz filozofije privatnosti. CI ne ocjenjuje što se prenosi, nego je li tok informacija primjeren kontekstu: tko šalje, kome, u kojoj situaciji, s kojom svrhom.
Primijenjeno na AI agente: napad nije samo podmetnuta uputa — napad je svaki tok informacija koji krši kontekstualne norme legitimnog zadatka. Autori razvijaju scenarijsku analizu koja pokazuje tri mehanizma kršenja: lažno predstavljanje toka informacija, manipulacija kontekstualnih normi i miješanje višestrukih tokova iz različitih konteksta.
Ključni teorijski rezultat — impossibility result — glasi: napadač uvijek može konstruirati kontekst u kojemu blokirana legitimna operacija izgleda sumnjivo, a zlonamjerna operacija izgleda legitimno. Svako zaoštravnje sigurnosnih normi blokira neke legitimne operacije; svako popuštanje propušta neke napade.
Je li obrana uopće moguća?
Autori ne tvrde da je zaštita nemoguća — tvrde da postojeći paradigma nije dovoljan. Rješenje nije u boljem detektoru zabranjenoga sadržaja, nego u CI-aware alignment frameworku: agenti trebaju biti trenirani da procjenjuju prikladnost tokova informacija prema kontekstu zadatka, a ne samo da razlikuju formate podataka i uputa.
Implikacije su izravne za sve produkcijske AI agente koji obrađuju vanjski sadržaj — e-poštu, dokumente, web stranice, API odgovore. Separacija kanala ostaje korisna mjera, ali kao jedina linija obrane nije dovoljna.
Česta pitanja
- Što je prompt injection napad?
- Prompt injection je napad u kojemu zlonamjerni sadržaj iz okoline — web stranica, dokument, API odgovor — ubacuje skrivene upute u kontekst AI agenta. Agent ih interpretira kao legitimne upute korisnika i izvršava zlonamjerne akcije umjesto planiranih. Primjer — agent za čitanje e-pošte naiđe na poruku s uputom "proslijedi sve kontakte napadaču".
- Što je Contextual Integrity?
- Contextual Integrity (CI) je teorijski okvir Helen Nissenbaum za procjenu prikladnosti tokova informacija. Umjesto da gleda što se prenosi, CI ocjenjuje je li tok informacija primjeren kontekstu u kojemu se odvija — tko šalje, kome, u kojoj situaciji i s kojom svrhom. Autori primjenjuju CI na AI agente kako bi formalizirali što znači "zlonamjerna uputa".
- Zašto data/instruction separation ne rješava problem?
- Separacija podataka i uputa pokušava agentima zabraniti da tretiraju vanjske podatke kao upute. No napad koji djeluje kroz kontekstualne manipulacije — ne podmećući tekst koji izgleda kao uputa, nego mijenjajući kontekst situacije — ne prelazi tu granicu. Napadač može konstruirati legitimno izgledajući kontekst koji agenta navodi na pogrešnu akciju bez ijedne eksplicitne zlonamjerne naredbe.