MARS: Tekstualni smjerovi odbijanja štite multimodalne AI modele bez dodatnog treniranja
Istraživači sa Sveučilišta u Trentu predlažu MARS — pristup multimodalnoj sigurnosti koji preuzima smjerove odbijanja iz tekstualnog LLM-a i primjenjuje ih na slikovne i video ulaze bez ikakvog dodatnog treniranja. Testiran na pet aktualnih multimodalnih modela s dosljednim sigurnosnim poboljšanjima uz očuvanu korisnost.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Višemodalni veliki jezični modeli — koji istovremeno obrađuju tekst, slike i video — donose novi izazov za sigurnosne istraživače: sigurnosni mehanizmi trenirani na tekstualnim podacima ne prenose se automatski na vizualne modalitete. Napadač koji ne može izvući štetan odgovor tekstualnim upitom ponekad to može postići pažljivo konstruiranom slikom ili video sekvencom.
Istraživački tim s Odjela za informatiku Sveučilišta u Trentu — D’Incà, Mancini i Sebe — predlaže novi pristup koji taj jaz premošćuje bez ijednog dodatnog koraka treniranja.
Što je MARS?
MARS (Modality-Agnostic Refusal Steering) polazi od jednostavne ali moćne pretpostavke: mehanizam kojim LLM odbija štetan tekstualni zahtjev nije smješten isključivo u ulaznom sloju — nego dublje u aktivacijskom prostoru modela. Ti smjerovi odbijanja geometrijske su strukture koje se mogu identificirati i, kako MARS pokazuje, generalizirati kroz modalitete.
Konkretno: smjerovi odbijanja izvučeni iz čisto tekstualnog dijela modela primjenjivi su na aktivacije koje su nastale obradom slike ili videa. Višemodalni model sadržava znanje o tome što znači odbijanje — MARS tu strukturu aktivira i u modalitetima gdje inače nije prisutna kao aktivni sigurnosni mehanizam.
Tri mehanizma koji čine MARS robusnim
Pristup se oslanja na tri komponente koje rade zajedno pri generiranju prvog tokena odgovora — fazi u kojoj se odluka o odbijanju donosi:
Re-centriranje aktivacija pomak je aktivacijskog prostora prema regiji u kojoj model prirodno odbija štetne zahtjeve. Aktivacije koje nastaju vizualnim unosom usmjeravaju se prema istoj geometrijskoj zoni u kojoj tekstualni model prepoznaje štetni sadržaj.
Adaptivno skaliranje intervencije dinamički prilagođava jačinu korekcije ovisno o tome koliko je ulaz udaljen od sigurnih uzoraka. Time se smanjuje kolateralni učinak na benigne upite — korisnost modela ne degradira se paušalnim jačanjem svih odbijanja.
Odabir optimalnog sloja identificira koji transformer sloj pri generiranju prvog tokena ima najveći utjecaj na odluku o odbijanju i aplicira intervenciju precizno tamo. Ovo je efikasnije od primjene u svim slojevima i smanjuje neželjene interakcije s ostatkom mreže.
Ključna prednost: bez multimodalnih sigurnosnih podataka
Klasični pristupi multimodalnoj sigurnosti zahtijevaju skupove podataka koji pariraju štetan vizualni ulaz s primjerenim odgovorom — skupo je i teško skupiti, a fine-tuning procedure mogu degradirati korisnost modela na standardnim zadacima.
MARS ne treba takve podatke. Koristi isključivo tekstualnu strukturu odbijanja koja je već prisutna u modelu. To ga čini primjenljivim na bilo koji višemodalni model koji dijeli zajednički LLM backbone — bez ponovnog treniranja, bez GPU klastera, bez specijaliziranih sigurnosnih skupova podataka.
Testiranje na pet aktualnih multimodalnih modela
Istraživači su proveli evaluaciju na pet aktualnih SOTA multimodalnih modela koji obrađuju slike i video. Rezultati pokazuju dosljedne sigurnosne dobitke: modeli s aktiviranim MARS-om rjeđe generiraju štetan sadržaj na vizualne napade koji bi inače zaobišli tekstualne zaštite.
Kritičan uvjet u produkcijskim okruženjima — da sigurnosna intervencija ne degradira korisnost — zadovoljen je: korisnost na benignim zadacima ostaje očuvana. Sigurnosna intervencija koja negativno utječe na kvalitetu odgovora ne bi bila prihvaćena u praksi.
Autori naglašavaju da MARS nije zamjena za robustno sigurnosno treniranje — to je lagan sloj koji može poboljšati već deployan model brzo i bez značajnih troškova. Kombinacija s originalnim sigurnosnim treniranjem teoretski bi trebala dati još bolje rezultate.
Širi kontekst: zašto je modalitetna sigurnost hitna
Vizualni napadi na višemodalne modele rastuća su kategorija prijetnji: adversarijalne slike, tekst ugrađen u fotografije, video sekvence dizajnirane da zbune sigurnosne filtere. Kako se višemodalni modeli deployaju u produkcijskim sustavima — od chatbotova s mogućnošću uploada slika do automatiziranih sustava za pregled vizualnog sadržaja — ranjivosti specifične za vizualne modalitete postaju sve relevantnije.
MARS pristup koji ne zahtijeva treniranje posebno je vrijedan u scenarijima gdje organizacija nema resurse za fine-tuning, ili gdje model nije dostupan za treniranje (API-only deployment). Laganost i primjenljivost na gotov model razlikuju ga od većine dosadašnjih pristupa koji pretpostavljaju puni pristup parametrima.
Rad otvara i šire istraživačko pitanje: koliko je znanje o sigurnosti u LLM-u modularne prirode? Ako se smjerovi odbijanja mogu uspješno transferirati između modaliteta, moguće je da isti princip vrijedi i između zadataka, domena ili srodnih arhitektura modela.
Česta pitanja
- Što su smjerovi odbijanja i zašto su važni za multimodalnu sigurnost?
- Smjerovi odbijanja su geometrijski vektori u aktivacijskom prostoru LLM-a koji predstavljaju mehanizam kojim model odbija štetne zahtjeve. MARS ih preuzima iz tekstualnog modela i primjenjuje na vizualne modalitete bez zasebnih sigurnosnih podataka.
- Zašto je važno da MARS ne zahtijeva dodatno treniranje?
- Pristup bez treniranja može se primijeniti na već deployan model odmah, bez skupih skupova podataka ili GPU resursa, što ga čini praktičnim za produkcijsku upotrebu i API-only scenarije.
- Na koliko modela je MARS testiran?
- MARS je testiran na pet aktualnih multimodalnih modela s dosljednim sigurnosnim poboljšanjima i bez značajnog pada korisnosti na benignim zadacima.
Povezane vijesti
LangChain: Kako pokrenuti nepouzdani agentski kod bez vanjskog sandboxa
arXiv:2606.28270: Agent-Native Immune System — šestoslojna runtime obrana ugrađena u zaključivanje AI agenata
arXiv:2606.28061: ToolPrivacyBench — mjeri 'need-to-know' privatnost u LLM agentima s alatima