🤖 24 AI
🟡 🛡️ 安全 2026年4月16日星期四 · 2 分钟阅读

ArXiv:RePAIR让大语言模型无需重新训练即可「遗忘」目标信息

为什么重要

RePAIR是一种新型交互式机器遗忘(machine unlearning)框架,允许用户通过自然语言提示实时指示大语言模型遗忘特定信息。核心创新STAMP方法通过闭合公式将MLP激活重定向至拒绝子空间,无需重新训练模型,在保留模型实用性的同时实现接近零的遗忘分数。

以Jagadeesh Rachapudi为首的研究团队提出了RePAIR——一种引入交互式机器遗忘(Interactive Machine Unlearning, IMU)概念的框架。该系统允许用户通过自然语言提示指示大语言模型遗忘目标信息,并且可以实时完成,无需重新训练。

三模型系统是如何工作的?

RePAIR使用由三个专业组件构成的架构。看门狗模型充当守护者——检测用户提示是否包含遗忘特定信息的请求。外科医生模型生成精确的”修复”指令——定义神经网络中哪些激活需要重定向。患者模型——即正在使用的大语言模型本身——自主执行这些修复。

这种三部分架构意味着用户只需说出”忘记所有关于X人的信息”或”删除关于Y过程的知识”,系统就会自动识别、定位并中和模型中的相关信息。

STAMP是什么,为何是关键创新?

STAMP(通过伪逆激活操纵进行转向)是RePAIR的核心。该方法使用伪逆的闭合公式,将多层感知机(MLP)层的激活重定向至拒绝子空间——激活空间中对应于拒绝响应的部分。

关键在于STAMP不需要任何训练。修改通过分析方法计算,意味着遗忘在数秒内完成,而非重新训练所需的数小时或数天。结果显示遗忘分数接近零(信息确实被删除),同时保留了模型的整体实用性——模型对所有其他任务继续正常工作。

为什么这对监管和隐私很重要?

RePAIR解决了三个具体场景:抑制有害知识(例如危险物质制造说明)、纠正错误信息(删除模型学到的不准确事实)以及根据用户请求删除个人数据。

最后一个场景在欧洲GDPR和被遗忘权(Right to Erasure)的背景下尤为相关。此前,从已训练模型中删除特定数据需要昂贵且耗时的重新训练。RePAIR提供了一种实用替代方案——按需遗忘,实时完成,不降低性能。

多个基准测试的结果表明,RePAIR优于六种现有最先进的机器遗忘方法,在遗忘完整性和保留有用能力之间提供了更好的平衡。

🤖

本文由人工智能基于一手来源生成。