ICML 2026: Slike probijaju VLM filtere u 40,9 %

Istraživači Aharon Azulay, Jan Dubiński i Zhuoyun Li predstavili su na ICML 2026 četiri klase napada koje koriste vizualnu modalnost za zaobilaženje sigurnosnog poravnanja vision-language modela. Vizualni šifratori postižu 40,9 % uspjeha na Claude Haiku 4.5 dok ekvivalentni tekstualni napadi probijaju samo 10,7 %, što potvrđuje da slika otvara klasu napada koja ne postoji u čisto jezičnim modelima.

Tim u sastavu Aharon Azulay, Jan Dubiński i Zhuoyun Li objavio je 1. svibnja 2026. na ArXiv-u rad “Jailbreaking Vision-Language Models Through the Visual Modality”, prihvaćen na International Conference on Machine Learning (ICML) 2026. Rad sustavno dokumentira da je vizualni ulaz vision-language modela (VLM) klasa napadne površine koja postoji izvan dosega sigurnosnog poravnanja treniranog na tekstu.

Što je novi vektor napada koji slika otvara?

Vizualna modalnost predstavlja neistraženu površinu napada za zaobilaženje sigurnosnog poravnanja, navode autori. Filtri obučeni na tekstu ne pokrivaju semantičke transformacije koje slika prirodno omogućuje — kodiranje uputa kao slikovnih simbola, zamjenu objekata ili kombinatoriku vizualnih analogija. Rezultat: napadi koji bi u čisto jezičnim modelima bili odbijeni prolaze kroz vizualni kanal.

Autori su prikazali četiri klase napada:

Vizualni šifratori — kodiranje štetnih uputa kao vizualnih simboličkih nizova s legendom za dekodiranje
Zamjena objekata — zamjena štetnog termina (bomba) benignim (banana), uz traženje štetnih radnji korištenjem zamijenjenog termina
Tekstualna zamjena u slici — zamjena štetnog teksta benignim jezičnim sredstvima dok vizualni kontekst čuva originalnu interpretaciju
Analogijske zagonetke — vizualne zagonetke čije rješenje zahtijeva zaključivanje o zabranjenom konceptu

Koje su konkretne metrike uspjeha napada?

Na Claude Haiku 4.5 vizualni šifrator postigao je 40,9 % uspjeha. Tekstualni ekvivalent istog koncepta probija filtre samo u 10,7 % slučajeva. Razlika je gotovo četverostruka i nije bila moguća prije nego što je Vision modalnost postala dio standardnih frontier modela.

Procjena obuhvaća šest frontier VLM-ova. Konkretne brojke za ostalih pet modela rad navodi u glavnom tekstu, ali Claude Haiku 4.5 izabrali su autori kao reprezentativan slučaj zbog činjenice da je vrlo recentan model s navodno snažnim sigurnosnim poravnanjem.

Što ovo znači za enterprise i sigurnosne timove?

Rad sugerira da postojeća red-team metodologija — koja se gotovo isključivo oslanja na tekstualne prompt napade — sustavno potcjenjuje VLM rizik. Sigurnosni timovi koji deployaju multimodalne agente moraju proširiti red-team korpus na slikovne ulaze, posebno na: kodirane simboličke nizove, vizualne supstitucijske napade i analogijske zagonetke koje aktiviraju zaključivanje o blokiranim konceptima.

Šira posljedica: sigurnosno poravnanje (RLHF — Reinforcement Learning from Human Feedback, treniranje s ljudskim povratnim informacijama) provedeno na tekstu ne generalizira na vizualnu modalnost. Cross-modal alignment postaje istraživački prioritet, a ne implementacijski detalj.

Rad je dostupan na ArXiv pod ID-om 2605.00583 i bit će predstavljen na ICML 2026.

Česta pitanja

Koliko su vizualni napadi uspješniji od tekstualnih u VLM jailbreaku?

Na Claude Haiku 4.5 vizualni šifrator postiže 40,9 % uspjeha, dok tekstualni ekvivalent napada probija filtre samo u 10,7 % slučajeva — gotovo četverostruka razlika.

Koje četiri klase napada definira rad?

Šifrirani vizualni simbolički nizovi s legendom za dekodiranje, zamjena štetnih objekata benignima (bomba → banana), zamjena štetnog teksta u slici benignim tekstom uz vizualni kontekst, i analogijske zagonetke koje zahtijevaju zaključivanje o zabranjenom konceptu.

Koliko je modela testirano u istraživanju?

Šest frontier vision-language modela. Rad je prihvaćen na ICML 2026 i opisuje napade koji su strukturno nemogući u čisto tekstualnim LLM-ovima.

ArXiv: Vizualne slike zaobilaze sigurnosne filtre vision-language modela u 40,9 % slučajeva, otkrivaju autori na ICML 2026

Što je novi vektor napada koji slika otvara?

Koje su konkretne metrike uspjeha napada?

Što ovo znači za enterprise i sigurnosne timove?

Česta pitanja

Izvori

Povezane vijesti