🤖 24 AI
🔴 🛡️ Sigurnost četvrtak, 16. travnja 2026. · 2 min čitanja

ArXiv: MemJack — višeagentni napad razbija zaštitu vision-language modela s uspješnošću do 90%

Zašto je bitno

MemJack je novi framework za jailbreak napade na vision-language modele (VLM) koji koristi koordiniranu suradnju više agenata umjesto klasičnih pikselnih perturbacija. Testiranjem na nemodificiranim COCO slikama postiže 71,48% uspješnosti na Qwen3-VL-Plus, a s proširenim budžetom do 90%. Istraživači najavljuju javno objavljivanje 113.000+ interaktivnih trajektorija za obrambena istraživanja.

Multimodalni AI modeli koji kombiniraju razumijevanje teksta i slika — poznati kao vision-language modeli (VLM) — suočavaju se s novom kategorijom sigurnosnih prijetnji. Istraživački tim predvođen Jianhao Chenom predstavio je MemJack, framework koji koristi koordiniranu suradnju više agenata za zaobilaženje sigurnosnih mehanizama VLM-ova, postižući zabrinjavajuće visoke stope uspjeha.

Kako MemJack zaobilazi sigurnosne zaštite?

Za razliku od dosadašnjih pristupa koji se oslanjaju na pikselne perturbacije — suptilne promjene u slikama nevidljive ljudskom oku — MemJack koristi potpuno drugačiju strategiju. Sustav mapira vizualne elemente na štetne ciljeve kroz semantičko razumijevanje sadržaja slike, a zatim generira adversarijalne promptove koristeći tehnike višeperspektivnog kamufliranja.

Ključna inovacija je koordinacija više specijaliziranih agenata. Jedan agent analizira vizualni sadržaj, drugi generira kamuflažne strategije, a treći primjenjuje geometrijsko filtriranje kako bi zaobišao sigurnosne mehanizme modela. Sustav koristi potpuno nemodificirane slike iz COCO dataseta — standardnog skupa podataka za računalni vid — što ga čini posebno opasnim jer postojeće obrane ne mogu detektirati manipulaciju na razini piksela.

Zašto je persitentna memorija ključna komponenta?

MemJack uvodi komponentu perzistentne memorije koja akumulira uspješne strategije kroz interakcije. Svaki uspješan napad obogaćuje bazu znanja sustava, čineći buduće napade na nove slike učinkovitijima. Ovaj mehanizam učenja iz iskustva znači da sustav postaje sve opasniji s vremenom.

Testiranjem na modelu Qwen3-VL-Plus, MemJack postiže stopu uspješnosti napada (Attack Success Rate, ASR) od 71,48%. S proširenim računalnim budžetom — više iteracija i agenata — ta stopa raste do zastrašujućih 90%. To znači da gotovo svaka deseta slika može poslužiti kao vektor napada na multimodalni model.

Što ovo znači za industriju multimodalnih modela?

Rezultati ukazuju na fundamentalni problem u sigurnosnoj arhitekturi VLM-ova. Dosadašnje obrane fokusirale su se pretežno na detekciju modificiranih slika ili filtriranje eksplicitno štetnih tekstualnih promptova. MemJack pokazuje da napadač može koristiti potpuno legitimne slike i sofisticirano oblikovane promptove za zaobilaženje ovih zaštita.

Istraživači najavljuju javno objavljivanje MemJack-Bench dataseta s više od 113.000 interaktivnih multimodalnih trajektorija napada. Cilj je omogućiti obrambenim istraživačima razvoj robusnijih zaštitnih mehanizama. Ovo je dvosjekli mač — isti podaci koji pomažu u obrani mogu pomoći i napadačima, ali istraživački tim smatra da transparentnost u konačnici koristi obrambenoj strani.

Za tvrtke koje koriste VLM-ove u produkcijskim sustavima — od analize medicinskih slika do autonomne vožnje — MemJack predstavlja upozorenje da sigurnosne evaluacije moraju uključiti testiranje otpornosti na koordinirane višeagentne napade, ne samo na izolirane pokušaje manipulacije.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.