什么是机器遗忘？

机器遗忘是从已训练模型中选择性删除知识的过程——例如特定记忆的个人数据或危险能力——而无需完全重新训练。

为什么MMLU 44.6%是个问题？

标准遗忘方法也会破坏模型的通用知识，导致MMLU（通用基准）大幅下降。SAGO表明可以在保持通用能力的同时实现遗忘。

机器遗忘是一种从已训练语言模型中删除特定知识的技术——例如危险的生物学程序或个人数据——而无需完全重新训练。问题在于，此前的方法遗忘范围过广：在删除目标知识的同时，也破坏了模型的通用智能。

SAGO（符号约束非对称梯度优化）是一种新框架，将问题重新表述为两任务非对称问题：

这一区别并非表面文章——SAGO使用梯度合成，将PCGrad方法与符号约束逻辑相结合，优先考虑知识保留。实际上，当两个任务的梯度发生冲突时，SAGO倾向于保留——因为主要目标不是遗忘，而是在删除特定知识的同时保持模型的通用能力。

在WMDP（大规模杀伤性武器代理）Bio基准测试上——这是衡量模型「遗忘」危险生物学知识程度的标准测试——SAGO取得了以下结果：

MMLU（大规模多任务语言理解）是通用语言智能的主要基准。在标准遗忘后从约75%的预训练水平降至44.6%，意味着模型失去了大量有用知识。SAGO将得分恢复至96%，几乎没有损失，同时保留了对目标WMDP Bio内容的遗忘效果。

遗忘已成为负责任AI部署的关键组成部分——监管机构（欧盟AI法案、GDPR）和用户要求模型运营商能够按需删除特定知识。如果该方法破坏通用能力，运营商只剩下二元选择：要么保持模型原状，要么从头重新训练。

SAGO证明，两者兼得是可能的——精确遗忘与知识保留——使用所有已拥有训练模型访问权限的人都可以使用的现有方法。

该论文已被ACL 2026（计算语言学协会年会）接受，这是顶级NLP会议之一。这意味着它已通过同行评审——这是质量和结果可靠性的重要信号。作者（七人团队，第一作者Xiao）在预印本中未发布代码，但ACL传统上要求在发表时同步发布代码。