CrossMPI: napad na VLM modele samo slikom

arXiv:2605.16090 predstavlja CrossMPI — napad na vision-language modele koji ubacuje zlonamjerne upute isključivo kroz nevidljive promjene piksela slike, bez ikakva teksta. Istraživači su otkrili da se kritični slojevi multimodalne integracije nalaze u sredini modela, a ne na kraju kako se dosad pretpostavljalo. Napad postiže prosječan ASR od 66,36%, nadmašujući sve poznate baseline metode za 40,91 postotnih bodova.

Što je CrossMPI i zašto je opasan?

Istraživači (Hao Yang, Zhuo Ma, Yang Liu i suradnici) objavili su rad arXiv:2605.16090 koji uvodi CrossMPI — metodu prompt injection napada na large vision-language modele (LVLM) koja djeluje isključivo kroz perturbaciju slike, bez ikakvog teksta napadača.

Prompt injection je napad u kojemu se AI modelu podmetu skrivene upute koje mijenjaju ponašanje. CrossMPI taj princip prenosi na multimodalni prostor: zlonamjerna uputa enkodirana je u nevidljivim promjenama piksela — adversarial perturbaciji — koje ljudsko oko ne može opaziti.

Vision-language model prima sliku i tekst, interno ih spaja u zajednički prostor reprezentacija te generira odgovor. Upravo taj korak — multimodalna integracija — pokazao se kao najranjivija točka.

Otkriće koje mijenja pretpostavke: kritični slojevi su u sredini

Dosad se pretpostavljalo da su izlazni slojevi transformerske arhitekture najosjetljiviji na manipulacije. CrossMPI to empirijski obaraju.

Optimalni slojevi za perturbaciju nalaze se u sredini VLM-a, a ne pri kraju. Obrambeni mehanizmi fokusirani na izlaz propuštaju napad ugrađen dublje. Optimizacijski prostor u tim slojevima iznosi ~10⁷ parametara (vs. ~10⁵ u vizualnom embeddingu) — odatle dramatično veći doseg.

Metoda kombinira strategiju odabira slojeva (automatska lokacija kritičnih slojeva) i dodjelu perturbacijskog budžeta s opadanjem (pikseli bliži semantički važnim regijama primaju veće perturbacije).

Eksperimentalni rezultati: daleko ispred baseline metoda

CrossMPI je testiran na šest VLM-ova: MiniGPT4-Llama2, MiniGPT4-Vicuna, InstructBLIP, BLIP-2, BLIVA i Qwen2.5-VL, na tri dataseta (MSCOCO, ImageNet, TextVQA).

Prosječna stopa uspjeha napada (ASR) iznosi 66,36% — 40,91 pp više od prosjeka četiri baseline metode (ARE-W: 8,24%; CI: 54,57%; ATPI: 4,41%). Na BLIP-2 s MSCOCO-om ASR doseže 96,08%, uz minimalnu vizualnu distorziju (LPIPS ~18–20 vs. 70–85 kod baselines).

Zašto su implikacije za sigurnost ozbiljne?

Napadač koji kontrolira ulaznu sliku — npr. dokument, fotografija ili web sadržaj — može promijeniti ponašanje VLM-a bez ikakvog teksta koji bi filteri mogli detektirati. Sve produkcijske implementacije VLM-ova (analiza dokumenata, medicinska dijagnostika, chatbotovi s vidom) potencijalno su izložene.

Autori zaključuju da obrambene strategije moraju napustiti fokus na izlazne slojeve i okrenuti se sredini modela — točki stvarne multimodalne integracije.

Česta pitanja

Što je vision-language model (VLM)?

Vision-language model (VLM) je multimodalni AI sustav koji istovremeno razumije slike i tekst — primjeri su BLIP-2, InstructBLIP i Qwen2.5-VL. Model prima vizualni i tekstualni ulaz, interno ih integrira u zajednički prostor reprezentacija, te generira tekstualni odgovor.

Kako CrossMPI napad radi?

CrossMPI optimizira sitne, ljudskom oku nevidljive promjene piksela (adversarial perturbation) direktno u prostoru skrivenih stanja modela. Umjesto da napada vizualni embedding (10⁵ parametara), cilja srednje slojeve gdje se odvija multimodalna integracija (10⁷ parametara), čime postiže drastično veći uspjeh u umetanju zlonamjernih uputa.

Zašto je otkriće o 'sredini modela' toliko važno?

Dosadašnje pretpostavke u istraživanju adversarial napada temeljile su se na tome da su posljednji (izlazni) slojevi transformerske arhitekture najosjetljiviji na manipulacije. CrossMPI empirijski dokazuje suprotno: kritični slojevi za multimodalnu integraciju nalaze se u SREDINI VLM-a, što znači da se svi dosadašnji obrambeni mehanizmi fokusirani na izlazne slojeve moraju iznova evaluirati.

arXiv:2605.16090: CrossMPI — napad na vision-language modele isključivo perturbacijom slike

Što je CrossMPI i zašto je opasan?

Otkriće koje mijenja pretpostavke: kritični slojevi su u sredini

Eksperimentalni rezultati: daleko ispred baseline metoda

Zašto su implikacije za sigurnost ozbiljne?

Česta pitanja

Izvori

Povezane vijesti