什么是交互式机器遗忘？

这是用户通过自然语言指示AI模型遗忘特定信息（如个人数据或有害知识）的能力，无需重新训练整个模型。

STAMP方法是如何工作的？

STAMP（通过伪逆激活操纵进行转向）使用伪逆的闭合公式将MLP层的激活重定向至拒绝子空间，无需任何训练。

它可以根据用户请求（GDPR中的被遗忘权）从模型中删除个人数据，并在无需昂贵重新训练的情况下移除有害知识。

以Jagadeesh Rachapudi为首的研究团队提出了RePAIR——一种引入交互式机器遗忘（Interactive Machine Unlearning, IMU）概念的框架。该系统允许用户通过自然语言提示指示大语言模型遗忘目标信息，并且可以实时完成，无需重新训练。

RePAIR使用由三个专业组件构成的架构。看门狗模型充当守护者——检测用户提示是否包含遗忘特定信息的请求。外科医生模型生成精确的”修复”指令——定义神经网络中哪些激活需要重定向。患者模型——即正在使用的大语言模型本身——自主执行这些修复。

这种三部分架构意味着用户只需说出”忘记所有关于X人的信息”或”删除关于Y过程的知识”，系统就会自动识别、定位并中和模型中的相关信息。

STAMP（通过伪逆激活操纵进行转向）是RePAIR的核心。该方法使用伪逆的闭合公式，将多层感知机（MLP）层的激活重定向至拒绝子空间——激活空间中对应于拒绝响应的部分。

关键在于STAMP不需要任何训练。修改通过分析方法计算，意味着遗忘在数秒内完成，而非重新训练所需的数小时或数天。结果显示遗忘分数接近零（信息确实被删除），同时保留了模型的整体实用性——模型对所有其他任务继续正常工作。

RePAIR解决了三个具体场景：抑制有害知识（例如危险物质制造说明）、纠正错误信息（删除模型学到的不准确事实）以及根据用户请求删除个人数据。

最后一个场景在欧洲GDPR和被遗忘权（Right to Erasure）的背景下尤为相关。此前，从已训练模型中删除特定数据需要昂贵且耗时的重新训练。RePAIR提供了一种实用替代方案——按需遗忘，实时完成，不降低性能。

多个基准测试的结果表明，RePAIR优于六种现有最先进的机器遗忘方法，在遗忘完整性和保留有用能力之间提供了更好的平衡。