NeuroImprint: PEFT backdoor rekonstruira 59–79% podataka

NeuroImprint je napad koji korumpira PEFT adaptere u federiranom fine-tuningu i rekonstruira 59–79% svih trening uzoraka visoke semantičke vjernosti. Testiran na BERT-u, GPT-2, Qwen2 i Llama 3.2, a napad ostaje neotkriven jer model zadržava normalnu korisnost.

Federirana privatnost ima ranjivost u PEFT adapterima

Federiranom učenju (federated learning) cilj je trenirati jezične modele bez dijeljenja privatnih podataka klijenata. No istraživači sa Virginia Tech i Washington University — predvođeni Shanghao Shijem — pokazali su da sama arhitektura PEFT adaptera otvara vrata za potpuno novu vrstu napada.

Rad je predan 18. lipnja 2026. i objavljen dan poslije na arXivu (2606.20553).

NeuroImprint: kako funkcionira napad

PEFT (Parameter-Efficient Fine-Tuning) je tehnika kojom se treniraju samo mali broj dodatnih parametara — adaptera — umjesto cijelog modela. U federiranom postavljanju klijenti šalju ažurirane adaptere centralnom poslužitelju, koji ih agregira i distribuira.

NeuroImprint eksploatira upravo tu točku agregacije. Zlonamjerni parametarski server injektira skriveni backdoor izravno u PEFT adaptere prije nego ih vrati klijentima. Kompromitirani adapter zatim „utiskuje” (imprints) reprezentacije trening uzoraka u težine modela na način koji nije vidljiv kroz standardne metrike točnosti.

Rezultat: napadač može naknadno rekonstruirati 59 do 79% svih uzoraka za fine-tuning s visokom semantičkom vjernošću — imena, adrese, medicinski zapisi, pravni dokumenti — sve što su klijenti koristili za lokalni trening.

Testiranje na četiri modela arhitektura

Napad je validiran na reprezentativnom skupu modela:

Model	Arhitektura
BERT	enkoder
GPT-2	dekoder
Qwen2	dekoder (Alibaba)
Llama 3.2	dekoder (Meta)

Konzistentni rezultati kroz sve četiri arhitekture pokazuju da ranjivost nije specifična za jedan dizajn, već je strukturalna karakteristika PEFT pristupa u kombinaciji s federiranom agregacijom.

Zašto je ovo fundamentalni problem

Za razliku od dosadašnjih napada na privatnost koji degradiraju korisnost modela i time postaju vidljivi, NeuroImprint zadržava normalnu korisnost. Model točno odgovara na zadatke, prolazi standardne evaluacije i ne pokazuje anomalije u ponašanju — a istovremeno tiho pohrani rekonstrukcijska sredstva.

Rad identificira temeljnu napetost između PEFT efikasnosti i federalne privatnosti: što su adapteri kompaktniji i lakši za dijeljenje, to je lakše ugraditi skriveni kanal za eksfiltraciju podataka.

Implikacije za praksu

Organizacije koje koriste federiranu PEFT personalizaciju — posebno u zdravstvu, pravu i financijama — trebaju razmotriti dodatne slojeve provjere integriteta adaptera, kriptografske obveze parametara i heterogene agregacijske protokole koji onemogućuju jednom serveru kontrolu nad svim klijentima.

Česta pitanja

Što je NeuroImprint napad?

NeuroImprint je napad u kojemu zlonamjerni parametarski server korumpira PEFT adaptere kako bi stvorio skrivene privatne backdoore u federiranom fine-tuningu jezičnih modela, omogućujući rekonstrukciju trening podataka klijenata.

Na kojim modelima je NeuroImprint testiran?

Napad je testiran na četiri modela: BERT, GPT-2, Qwen2 i Llama 3.2, s konzistentnim rezultatima rekonstrukcije od 59 do 79% svih uzoraka za fine-tuning.

Zašto je napad teško otkriti?

NeuroImprint namjerno zadržava normalnu korisnost modela — metrike točnosti ostaju nepromijenjene — što ga čini nevidljivim za standardne metode detekcije anomalija.

arXiv:2606.20553: NeuroImprint — skriveni backdoor u federiranom fine-tuningu rekonstruira 59–79% podataka