🤖 24 AI
🟡 🛡️ 安全 2026年4月19日星期日 · 2 分钟阅读

SAGO:新型机器遗忘方法将MMLU从44.6%恢复至96%且不损失遗忘效果,被ACL 2026录用

编辑插图:选择性擦除记忆部分,神经网络外的保护层

为什么重要

SAGO是一种梯度合成框架,将机器遗忘重新表述为两任务非对称问题——知识保留为主要目标,遗忘为辅助目标。在WMDP Bio基准上,将MMLU从基线44.6%经PCGrad的94%提升至96%,同时保持相当的遗忘得分,从而解决了此前遗忘方法过度破坏模型有用知识的主要问题。

SAGO究竟解决了什么问题?

机器遗忘是一种从已训练语言模型中删除特定知识的技术——例如危险的生物学程序或个人数据——而无需完全重新训练。问题在于,此前的方法遗忘范围过广:在删除目标知识的同时,也破坏了模型的通用智能。

SAGO(符号约束非对称梯度优化)是一种新框架,将问题重新表述为两任务非对称问题

  • 主要任务: 保留现有知识
  • 辅助任务: 遗忘目标内容

这一区别并非表面文章——SAGO使用梯度合成,将PCGrad方法与符号约束逻辑相结合,优先考虑知识保留。实际上,当两个任务的梯度发生冲突时,SAGO倾向于保留——因为主要目标不是遗忘,而是在删除特定知识的同时保持模型的通用能力。

数字差距有多大?

在WMDP(大规模杀伤性武器代理)Bio基准测试上——这是衡量模型「遗忘」危险生物学知识程度的标准测试——SAGO取得了以下结果:

方法MMLU得分遗忘效果
基线(标准遗忘后)44.6%
PCGrad(之前的SOTA)94.0%相当
SAGO(新结果)96.0%相当

MMLU(大规模多任务语言理解)是通用语言智能的主要基准。在标准遗忘后从约75%的预训练水平降至44.6%,意味着模型失去了大量有用知识。SAGO将得分恢复至96%,几乎没有损失,同时保留了对目标WMDP Bio内容的遗忘效果。

这对模型安全为何重要?

遗忘已成为负责任AI部署的关键组成部分——监管机构(欧盟AI法案、GDPR)和用户要求模型运营商能够按需删除特定知识。如果该方法破坏通用能力,运营商只剩下二元选择:要么保持模型原状,要么从头重新训练。

SAGO证明,两者兼得是可能的——精确遗忘与知识保留——使用所有已拥有训练模型访问权限的人都可以使用的现有方法。

同行评审状态

该论文已被ACL 2026(计算语言学协会年会)接受,这是顶级NLP会议之一。这意味着它已通过同行评审——这是质量和结果可靠性的重要信号。作者(七人团队,第一作者Xiao)在预印本中未发布代码,但ACL传统上要求在发表时同步发布代码。

🤖

本文由人工智能基于一手来源生成。