arXiv: ujedinjena detekcija backdoora u LLM-ovima

Novi rad otkriva zajednički latentni mehanizam kroz različite backdoor napade na velike jezične modele. Sparse autoencoderi detektiraju konzistentne značajke koje generaliziraju kroz Qwen3, Gemma 3 i Llama 3.1, a lagani klasifikatori postižu zero-shot detekciju neviđenih backdoora.

arXiv je 6. lipnja 2026. objavio rad (oznaka arXiv:2606.07963, verzija v1) koji otkriva zajednički latentni mehanizam kroz različite backdoor napade na velike jezične modele. Nalaz omogućuje ujedinjeni pristup detekciji umjesto zasebnih obrana za svaku vrstu napada.

Što je zajednička latentna struktura backdoora?

Backdoor je skriveno, zlonamjerno ponašanje koje se u modelu aktivira pod određenim uvjetima. Dosad se na svaku vrstu napada gledalo zasebno, no ovaj rad pokazuje da različiti backdoori dijele zajedničku latentnu (skrivenu) strukturu unutar modela.

To znači da, koliko god napadi izgledali različito na površini, u unutarnjim reprezentacijama modela ostavljaju sličan trag. Upravo taj zajednički trag otvara mogućnost jedinstvene detekcije.

Kako sparse autoencoderi otkrivaju napade?

Za otkrivanje strukture autori koriste sparse autoencodere (SAE) — mreže koje ulazne reprezentacije rastavljaju na rijetke, tumačive značajke. Ti SAE detektiraju konzistentne feature aktivacije kod više vrsta napada.

Među pokrivenim napadima su jailbreaking, manipulacija odbijanja (refusal manipulation), password-locking, indukcija pristranosti, sentiment misklasifikacija i country-conditioned štetni savjeti. Unatoč raznolikosti, iste se značajke pojavljuju kao zajednički pokazatelj prisutnosti backdoora.

Kroz koje modele značajke generaliziraju?

Otkrivene značajke ne ostaju vezane uz jedan model. One generaliziraju kroz Qwen3, Gemma 3 i Llama 3.1, u rasponu od 4B do 32B parametara. To pokazuje da je obrazac robustan kroz različite obitelji modela i veličine.

Generalizacija vrijedi i kroz različite mehanizme napada — i kroz fine-tuning i kroz weight-editing (izravno uređivanje težina). Time se potvrđuje da zajednička struktura nije artefakt jednog načina ubacivanja backdoora.

Kako je dokazana uzročnost?

Da bi pokazali da značajke stvarno uzrokuju backdoor ponašanje, autori koriste bidirekcijski activation steering (usmjeravanje aktivacija u oba smjera). Suzbijanje featurea smanjuje attack success rate (stopu uspješnosti napada), dok pojačavanje istog featurea inducira ciljano ponašanje.

Taj dvosmjerni eksperiment razlikuje uzročnost od puke korelacije. Budući da promjena značajke izravno mijenja ponašanje modela, jasno je da je riječ o stvarnom uzroku, a ne slučajnoj povezanosti.

Koliko su klasifikatori učinkoviti?

Na temelju otkrivenih značajki autori grade lagane SAE-feature klasifikatore. Oni postižu zero-shot generalizaciju na neviđene backdoore, što znači da prepoznaju napade na koje nisu bili izričito trenirani.

Ti klasifikatori nadmašuju baseline pristupe temeljene na residual-streamu i weight-diffingu (usporedbi težina). Time rad nudi praktičan, prenosiv alat za obranu od širokog spektra backdoor napada, a ne samo onih unaprijed poznatih.

Česta pitanja

Što je backdoor u velikom jezičnom modelu?

Backdoor je skriveno, zlonamjerno ponašanje ugrađeno u model koje se aktivira pod određenim uvjetima, primjerice kod jailbreakinga, manipulacije odbijanja, password-lockinga ili indukcije pristranosti. Rad pokazuje da različiti backdoori dijele zajednički latentni mehanizam koji se može otkriti.

Kako se zajednička struktura detektira?

Sparse autoencoderi (SAE) detektiraju konzistentne feature aktivacije kod više vrsta napada. Te značajke generaliziraju kroz modele Qwen3, Gemma 3 i Llama 3.1 (od 4B do 32B parametara) te kroz fine-tuning i weight-editing napade.

Kako je dokazana uzročnost?

Bidirekcijski activation steering dokazuje uzročnost: suzbijanje featurea smanjuje attack success rate, dok pojačavanje inducira ciljano ponašanje. Time se pokazuje da otkrivene značajke nisu samo korelacija, nego stvarni uzrok backdoor ponašanja.

arXiv:2606.07963: Zajednička latentna struktura omogućuje ujedinjenu detekciju backdoora u LLM-ovima

Što je zajednička latentna struktura backdoora?

Kako sparse autoencoderi otkrivaju napade?

Kroz koje modele značajke generaliziraju?

Kako je dokazana uzročnost?

Koliko su klasifikatori učinkoviti?

Česta pitanja

Izvori

Povezane vijesti