SAGO:新型机器遗忘方法将MMLU从44.6%恢复至96%且不损失遗忘效果,被ACL 2026录用
为什么重要
SAGO是一种梯度合成框架,将机器遗忘重新表述为两任务非对称问题——知识保留为主要目标,遗忘为辅助目标。在WMDP Bio基准上,将MMLU从基线44.6%经PCGrad的94%提升至96%,同时保持相当的遗忘得分,从而解决了此前遗忘方法过度破坏模型有用知识的主要问题。
SAGO究竟解决了什么问题?
机器遗忘是一种从已训练语言模型中删除特定知识的技术——例如危险的生物学程序或个人数据——而无需完全重新训练。问题在于,此前的方法遗忘范围过广:在删除目标知识的同时,也破坏了模型的通用智能。
SAGO(符号约束非对称梯度优化)是一种新框架,将问题重新表述为两任务非对称问题:
- 主要任务: 保留现有知识
- 辅助任务: 遗忘目标内容
这一区别并非表面文章——SAGO使用梯度合成,将PCGrad方法与符号约束逻辑相结合,优先考虑知识保留。实际上,当两个任务的梯度发生冲突时,SAGO倾向于保留——因为主要目标不是遗忘,而是在删除特定知识的同时保持模型的通用能力。
数字差距有多大?
在WMDP(大规模杀伤性武器代理)Bio基准测试上——这是衡量模型「遗忘」危险生物学知识程度的标准测试——SAGO取得了以下结果:
| 方法 | MMLU得分 | 遗忘效果 |
|---|---|---|
| 基线(标准遗忘后) | 44.6% | — |
| PCGrad(之前的SOTA) | 94.0% | 相当 |
| SAGO(新结果) | 96.0% | 相当 |
MMLU(大规模多任务语言理解)是通用语言智能的主要基准。在标准遗忘后从约75%的预训练水平降至44.6%,意味着模型失去了大量有用知识。SAGO将得分恢复至96%,几乎没有损失,同时保留了对目标WMDP Bio内容的遗忘效果。
这对模型安全为何重要?
遗忘已成为负责任AI部署的关键组成部分——监管机构(欧盟AI法案、GDPR)和用户要求模型运营商能够按需删除特定知识。如果该方法破坏通用能力,运营商只剩下二元选择:要么保持模型原状,要么从头重新训练。
SAGO证明,两者兼得是可能的——精确遗忘与知识保留——使用所有已拥有训练模型访问权限的人都可以使用的现有方法。
同行评审状态
该论文已被ACL 2026(计算语言学协会年会)接受,这是顶级NLP会议之一。这意味着它已通过同行评审——这是质量和结果可靠性的重要信号。作者(七人团队,第一作者Xiao)在预印本中未发布代码,但ACL传统上要求在发表时同步发布代码。
本文由人工智能基于一手来源生成。