NeuroImprint：PEFT后门重建59–79%的训练数据

NeuroImprint是一种攻击方式，通过破坏联邦微调中的PEFT适配器，以高语义保真度重建59–79%的所有训练样本。该攻击在BERT、GPT-2、Qwen2和Llama 3.2上进行了测试，由于模型保持正常可用性，攻击难以被检测。

联邦隐私在PEFT适配器中存在漏洞

联邦学习（Federated Learning）的目标是在不共享客户端私有数据的情况下训练语言模型。然而，来自弗吉尼亚理工大学和华盛顿大学的研究人员——由石上浩领衔——证明了PEFT适配器的架构本身为全新类型的攻击打开了大门。

该论文于2026年6月18日提交，次日在arXiv上发布（2606.20553）。

**PEFT（参数高效微调）**是一种只训练少量额外参数——即适配器——而非整个模型的技术。在联邦环境中，客户端将更新后的适配器发送到中央服务器，由服务器进行聚合和分发。

NeuroImprint正是利用了这个聚合节点。恶意参数服务器在将PEFT适配器返回给客户端之前，直接向其注入隐藏后门。被破坏的适配器随后以标准准确率指标无法察觉的方式，将训练样本的表示”烙印”到模型权重中。

结果：攻击者随后可以以高语义保真度重建59至79%的所有微调样本——姓名、地址、医疗记录、法律文件——客户端用于本地训练的所有内容。

该攻击在具有代表性的模型集合上进行了验证：

在所有四种架构上的一致结果表明，该漏洞并非特定于某一设计，而是PEFT方法与联邦聚合结合的结构性特征。

与之前那些会降低模型可用性从而暴露自身的隐私攻击不同，NeuroImprint保持了正常的可用性。模型正确响应任务，通过标准评估，不表现出行为异常——同时悄悄存储重建手段。

该论文指出了PEFT效率与联邦隐私之间的根本张力：适配器越紧凑、越易于共享，就越容易嵌入用于数据泄露的隐蔽通道。

在医疗、法律和金融领域使用联邦PEFT个性化的组织，应考虑增加额外的适配器完整性验证层、密码学参数承诺以及异构聚合协议，以防止单一服务器控制所有客户端。

常见问题

什么是NeuroImprint攻击？

NeuroImprint是一种攻击，其中恶意参数服务器破坏PEFT适配器，在语言模型的联邦微调中创建隐藏的隐私后门，从而能够重建客户端的训练数据。

NeuroImprint在哪些模型上进行了测试？

该攻击在四个模型上进行了测试：BERT、GPT-2、Qwen2和Llama 3.2，所有微调样本的重建结果一致在59至79%之间。

为什么这种攻击难以检测？

NeuroImprint刻意保持模型的正常可用性——准确率指标保持不变——因此对标准异常检测方法不可见。