arXiv:2606.20553: NeuroImprint — skriveni backdoor u federiranom fine-tuningu rekonstruira 59–79% podataka
NeuroImprint je napad koji korumpira PEFT adaptere u federiranom fine-tuningu i rekonstruira 59–79% svih trening uzoraka visoke semantičke vjernosti. Testiran na BERT-u, GPT-2, Qwen2 i Llama 3.2, a napad ostaje neotkriven jer model zadržava normalnu korisnost.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Federirana privatnost ima ranjivost u PEFT adapterima
Federiranom učenju (federated learning) cilj je trenirati jezične modele bez dijeljenja privatnih podataka klijenata. No istraživači sa Virginia Tech i Washington University — predvođeni Shanghao Shijem — pokazali su da sama arhitektura PEFT adaptera otvara vrata za potpuno novu vrstu napada.
Rad je predan 18. lipnja 2026. i objavljen dan poslije na arXivu (2606.20553).
NeuroImprint: kako funkcionira napad
PEFT (Parameter-Efficient Fine-Tuning) je tehnika kojom se treniraju samo mali broj dodatnih parametara — adaptera — umjesto cijelog modela. U federiranom postavljanju klijenti šalju ažurirane adaptere centralnom poslužitelju, koji ih agregira i distribuira.
NeuroImprint eksploatira upravo tu točku agregacije. Zlonamjerni parametarski server injektira skriveni backdoor izravno u PEFT adaptere prije nego ih vrati klijentima. Kompromitirani adapter zatim „utiskuje” (imprints) reprezentacije trening uzoraka u težine modela na način koji nije vidljiv kroz standardne metrike točnosti.
Rezultat: napadač može naknadno rekonstruirati 59 do 79% svih uzoraka za fine-tuning s visokom semantičkom vjernošću — imena, adrese, medicinski zapisi, pravni dokumenti — sve što su klijenti koristili za lokalni trening.
Testiranje na četiri modela arhitektura
Napad je validiran na reprezentativnom skupu modela:
| Model | Arhitektura |
|---|---|
| BERT | enkoder |
| GPT-2 | dekoder |
| Qwen2 | dekoder (Alibaba) |
| Llama 3.2 | dekoder (Meta) |
Konzistentni rezultati kroz sve četiri arhitekture pokazuju da ranjivost nije specifična za jedan dizajn, već je strukturalna karakteristika PEFT pristupa u kombinaciji s federiranom agregacijom.
Zašto je ovo fundamentalni problem
Za razliku od dosadašnjih napada na privatnost koji degradiraju korisnost modela i time postaju vidljivi, NeuroImprint zadržava normalnu korisnost. Model točno odgovara na zadatke, prolazi standardne evaluacije i ne pokazuje anomalije u ponašanju — a istovremeno tiho pohrani rekonstrukcijska sredstva.
Rad identificira temeljnu napetost između PEFT efikasnosti i federalne privatnosti: što su adapteri kompaktniji i lakši za dijeljenje, to je lakše ugraditi skriveni kanal za eksfiltraciju podataka.
Implikacije za praksu
Organizacije koje koriste federiranu PEFT personalizaciju — posebno u zdravstvu, pravu i financijama — trebaju razmotriti dodatne slojeve provjere integriteta adaptera, kriptografske obveze parametara i heterogene agregacijske protokole koji onemogućuju jednom serveru kontrolu nad svim klijentima.
Česta pitanja
- Što je NeuroImprint napad?
- NeuroImprint je napad u kojemu zlonamjerni parametarski server korumpira PEFT adaptere kako bi stvorio skrivene privatne backdoore u federiranom fine-tuningu jezičnih modela, omogućujući rekonstrukciju trening podataka klijenata.
- Na kojim modelima je NeuroImprint testiran?
- Napad je testiran na četiri modela: BERT, GPT-2, Qwen2 i Llama 3.2, s konzistentnim rezultatima rekonstrukcije od 59 do 79% svih uzoraka za fine-tuning.
- Zašto je napad teško otkriti?
- NeuroImprint namjerno zadržava normalnu korisnost modela — metrike točnosti ostaju nepromijenjene — što ga čini nevidljivim za standardne metode detekcije anomalija.
Izvori
Povezane vijesti
arXiv:2606.20225: Aktivacijski smjerovi otkrivaju pogrešno poravnanje LLM-ova s 99,6% točnošću
arXiv:2606.20508: što jezični modeli uče iz miješanih demonstracija sigurnog i štetnog ponašanja
Google DeepMind: Više od 50% sigurnosnih incidenata agenata su greške, ne napadi