Što je MemJack i kako funkcionira?

MemJack je okvir za testiranje sigurnosti vision-language modela koji koristi više koordiniranih agenata za mapiranje vizualnih elemenata na štetne ciljeve, generirajući adversarijalne promptove bez modificiranja izvornih slika.

Koliko je MemJack napad uspješan?

Na modelu Qwen3-VL-Plus postiže 71,48% uspješnosti (Attack Success Rate), a s proširenim računalnim budžetom taj postotak raste do 90%.

Zašto je ovo istraživanje važno za sigurnost AI sustava?

Otkriva novu klasu ranjivosti u multimodalnim modelima koja ne zahtijeva tehničku manipulaciju slikama, što znači da postojeće obrane temeljene na detekciji pikselnih perturbacija nisu dovoljne.

ArXiv: MemJack — višeagentni napad razbija zaštitu vision-language modela s uspješnošću do 90%

Multimodalni AI modeli koji kombiniraju razumijevanje teksta i slika — poznati kao vision-language modeli (VLM) — suočavaju se s novom kategorijom sigurnosnih prijetnji. Istraživački tim predvođen Jianhao Chenom predstavio je MemJack, framework koji koristi koordiniranu suradnju više agenata za zaobilaženje sigurnosnih mehanizama VLM-ova, postižući zabrinjavajuće visoke stope uspjeha.

Kako MemJack zaobilazi sigurnosne zaštite?

Za razliku od dosadašnjih pristupa koji se oslanjaju na pikselne perturbacije — suptilne promjene u slikama nevidljive ljudskom oku — MemJack koristi potpuno drugačiju strategiju. Sustav mapira vizualne elemente na štetne ciljeve kroz semantičko razumijevanje sadržaja slike, a zatim generira adversarijalne promptove koristeći tehnike višeperspektivnog kamufliranja.

Ključna inovacija je koordinacija više specijaliziranih agenata. Jedan agent analizira vizualni sadržaj, drugi generira kamuflažne strategije, a treći primjenjuje geometrijsko filtriranje kako bi zaobišao sigurnosne mehanizme modela. Sustav koristi potpuno nemodificirane slike iz COCO dataseta — standardnog skupa podataka za računalni vid — što ga čini posebno opasnim jer postojeće obrane ne mogu detektirati manipulaciju na razini piksela.

Zašto je persitentna memorija ključna komponenta?

MemJack uvodi komponentu perzistentne memorije koja akumulira uspješne strategije kroz interakcije. Svaki uspješan napad obogaćuje bazu znanja sustava, čineći buduće napade na nove slike učinkovitijima. Ovaj mehanizam učenja iz iskustva znači da sustav postaje sve opasniji s vremenom.

Testiranjem na modelu Qwen3-VL-Plus, MemJack postiže stopu uspješnosti napada (Attack Success Rate, ASR) od 71,48%. S proširenim računalnim budžetom — više iteracija i agenata — ta stopa raste do zastrašujućih 90%. To znači da gotovo svaka deseta slika može poslužiti kao vektor napada na multimodalni model.

Što ovo znači za industriju multimodalnih modela?

Rezultati ukazuju na fundamentalni problem u sigurnosnoj arhitekturi VLM-ova. Dosadašnje obrane fokusirale su se pretežno na detekciju modificiranih slika ili filtriranje eksplicitno štetnih tekstualnih promptova. MemJack pokazuje da napadač može koristiti potpuno legitimne slike i sofisticirano oblikovane promptove za zaobilaženje ovih zaštita.

Istraživači najavljuju javno objavljivanje MemJack-Bench dataseta s više od 113.000 interaktivnih multimodalnih trajektorija napada. Cilj je omogućiti obrambenim istraživačima razvoj robusnijih zaštitnih mehanizama. Ovo je dvosjekli mač — isti podaci koji pomažu u obrani mogu pomoći i napadačima, ali istraživački tim smatra da transparentnost u konačnici koristi obrambenoj strani.

Za tvrtke koje koriste VLM-ove u produkcijskim sustavima — od analize medicinskih slika do autonomne vožnje — MemJack predstavlja upozorenje da sigurnosne evaluacije moraju uključiti testiranje otpornosti na koordinirane višeagentne napade, ne samo na izolirane pokušaje manipulacije.

ArXiv: MemJack — višeagentni napad razbija zaštitu vision-language modela s uspješnošću do 90%

Kako MemJack zaobilazi sigurnosne zaštite?

Zašto je persitentna memorija ključna komponenta?

Što ovo znači za industriju multimodalnih modela?

Izvori

Povezane vijesti