SAGO:機械学習アンラーニングの新手法がMMLUを44.6%から96%に回復、忘却効果を維持しACL 2026採択
なぜ重要か
SAGOは機械学習アンラーニングを2タスクの非対称問題として再定式化するグラジェント合成フレームワークです——知識保持を主要目標、忘却を補助目標として設定します。WMDP Bioベンチマークで、MMLUをベースライン44.6%からPCGradの94%を超えて96%に向上させ、同等の忘却スコアを維持することで、従来のアンラーニング手法がモデルの有用な知識を過度に破壊するという主な問題を解決します。
SAGOは実際に何を解決しますか?
機械学習アンラーニングは、危険な生物学的手順や個人データなど、特定の知識を完全な再訓練なしに既訓練の言語モデルから削除する技術です。問題は、従来の手法が過度に広く忘却してしまう点にあります:ターゲット知識を削除する際に、モデルの一般的な知性も同時に破壊してしまうのです。
SAGO(符号制約非対称勾配最適化)は、問題を2タスクの非対称問題として再定式化する新しいフレームワークです:
- 主要タスク: 既存知識の保持
- 補助タスク: ターゲットコンテンツの忘却
この違いは表面的なものではありません——SAGOはグラジェント合成を使用し、PCGradアプローチを保持を優先する符号制約ロジックと組み合わせます。実際には、2つのタスクの勾配が競合する場合、SAGOは保持側に傾きます——主要目標は忘却ではなく、特定の知識を削除しながらモデルの一般的な能力を維持することだからです。
数値の差はどれほどですか?
WMDP(大量破壊兵器代理)Bioベンチマーク——モデルが危険な生物学的知識をどれほど「忘れた」かを測定する標準テスト——でSAGOは以下を達成します:
| 手法 | MMLUスコア | 忘却効果 |
|---|---|---|
| ベースライン(標準アンラーニング後) | 44.6% | — |
| PCGrad(以前のSOTA) | 94.0% | 同等 |
| SAGO(新結果) | 96.0% | 同等 |
MMLU(大規模多タスク言語理解)は一般的な言語知性の主要ベンチマークです。標準アンラーニング後に事前訓練レベルの約75%から44.6%への低下は、モデルが有用な知識の大部分を失ったことを意味します。SAGOはスコアを96%に回復させます——実質的に損失なく、ターゲットのWMDP Bioコンテンツに対する忘却効果を維持しながら。
なぜこれがモデル安全性にとって重要なのですか?
アンラーニングは責任あるAI配布の重要な構成要素になっています——規制当局(EU AI法、GDPR)とユーザーはモデルオペレーターに対して特定の知識をオンデマンドで削除できることを求めています。この手法が一般的な能力を破壊するならば、オペレーターにはバイナリな選択しか残されません:モデルをそのまま維持するか、ゼロから再訓練するか。
SAGOは両方を実現できることを証明します——精密な忘却と知識の保持——訓練済みモデルへのアクセスを持つ誰もが利用できる既存の手法を使用して。
査読審査状況
この論文はACL 2026(計算言語学協会年次大会)に採択されており、これはトップNLP学会の一つです。これは査読を通過したことを意味します——品質と結果の信頼性の重要なシグナルです。著者(7名のチーム、筆頭はXiao)はプレプリントでコードを公開していませんが、ACLは従来、発表時にコードのリリースを要求しています。
この記事はAIにより一次情報源から生成されました。