NeuroImprint: PEFT 백도어가 훈련 데이터 59–79% 재구성

NeuroImprint는 연합 파인튜닝에서 PEFT 어댑터를 손상시켜 높은 의미적 충실도로 전체 훈련 샘플의 59–79%를 재구성하는 공격입니다. BERT, GPT-2, Qwen2, Llama 3.2에서 테스트되었으며, 모델이 정상적인 유용성을 유지하기 때문에 공격은 탐지되지 않습니다.

연합 프라이버시에는 PEFT 어댑터의 취약점이 있습니다

연합 학습(Federated Learning)의 목표는 클라이언트의 개인 데이터를 공유하지 않고 언어 모델을 훈련하는 것입니다. 그러나 버지니아 공과대학교와 워싱턴 대학교의 연구자들——Shanghao Shi가 이끄는——은 PEFT 어댑터의 아키텍처 자체가 완전히 새로운 유형의 공격의 문을 열고 있음을 보여주었습니다.

이 논문은 2026년 6월 18일에 제출되었으며 다음 날 arXiv에 게재되었습니다(2606.20553).

NeuroImprint: 공격 작동 방식

**PEFT(Parameter-Efficient Fine-Tuning)**는 전체 모델 대신 소수의 추가 매개변수——어댑터——만 훈련하는 기술입니다. 연합 환경에서 클라이언트는 업데이트된 어댑터를 중앙 서버에 보내고, 서버는 이를 집계하여 배포합니다.

NeuroImprint는 바로 그 집계 지점을 악용합니다. 악의적인 매개변수 서버는 클라이언트에게 반환하기 전에 PEFT 어댑터에 직접 숨겨진 백도어를 주입합니다. 손상된 어댑터는 그 후 표준 정확도 지표로는 보이지 않는 방식으로 훈련 샘플의 표현을 모델 가중치에 “각인”합니다.

결과: 공격자는 이후 높은 의미적 충실도로 **전체 파인튜닝 샘플의 59~79%**를 재구성할 수 있습니다——이름, 주소, 의료 기록, 법적 문서——클라이언트가 로컬 훈련에 사용한 모든 것입니다.

네 가지 모델 아키텍처에서의 테스트

이 공격은 대표적인 모델 집합에서 검증되었습니다:

모델	아키텍처
BERT	인코더
GPT-2	디코더
Qwen2	디코더 (Alibaba)
Llama 3.2	디코더 (Meta)

네 가지 아키텍처 전반에 걸친 일관된 결과는 이 취약점이 특정 설계에 국한된 것이 아니라 연합 집계와 결합된 PEFT 접근 방식의 구조적 특성임을 보여줍니다.

왜 이것이 근본적인 문제인가

모델 유용성을 저하시켜 가시화되는 기존의 프라이버시 공격과 달리, NeuroImprint는 정상적인 유용성을 유지합니다. 모델은 작업에 정확하게 응답하고, 표준 평가를 통과하며, 행동 이상을 보이지 않습니다——동시에 조용히 재구성 수단을 저장합니다.

이 논문은 PEFT 효율성과 연합 프라이버시 사이의 근본적인 긴장관계를 식별합니다: 어댑터가 더 컴팩트하고 공유하기 쉬울수록 데이터 유출을 위한 숨겨진 채널을 내장하기가 더 쉬워집니다.

실무에 대한 시사점

의료, 법률, 금융 분야에서 연합 PEFT 개인화를 사용하는 조직은 어댑터 무결성 검증의 추가 레이어, 암호화 매개변수 커밋먼트, 그리고 단일 서버가 모든 클라이언트를 제어하지 못하도록 하는 이종 집계 프로토콜을 고려해야 합니다.

자주 묻는 질문

NeuroImprint 공격이란 무엇입니까?

NeuroImprint는 악의적인 매개변수 서버가 PEFT 어댑터를 손상시켜 언어 모델의 연합 파인튜닝에 숨겨진 프라이버시 백도어를 생성하여 클라이언트의 훈련 데이터 재구성을 가능하게 하는 공격입니다.

NeuroImprint는 어떤 모델에서 테스트되었습니까?

이 공격은 BERT, GPT-2, Qwen2, Llama 3.2 네 가지 모델에서 테스트되었으며, 전체 파인튜닝 샘플의 59~79%에 대한 일관된 재구성 결과를 보였습니다.

이 공격이 탐지하기 어려운 이유는 무엇입니까?

NeuroImprint는 의도적으로 모델의 정상적인 유용성을 유지합니다——정확도 지표는 변하지 않습니다——따라서 표준 이상 탐지 방법에는 보이지 않습니다.

arXiv:2606.20553: NeuroImprint——연합 파인튜닝의 숨겨진 백도어가 훈련 데이터의 59–79%를 재구성