機械学習アンラーニングとは何ですか？

機械学習アンラーニングは、既に訓練されたモデルから特定の知識を選択的に削除するプロセスです——例えば、記憶された個人データや危険な能力——完全な再訓練なしに行います。

なぜMMLU44.6%が問題なのですか？

標準的なアンラーニング手法はモデルの一般的な知識も破壊するため、MMLU（一般ベンチマーク）が大幅に低下します。SAGOは、忘却を実現しながら一般的な能力を維持できることを示します。

SAGO：機械学習アンラーニングの新手法がMMLUを44.6%から96%に回復、忘却効果を維持しACL 2026採択

SAGOは実際に何を解決しますか？

機械学習アンラーニングは、危険な生物学的手順や個人データなど、特定の知識を完全な再訓練なしに既訓練の言語モデルから削除する技術です。問題は、従来の手法が過度に広く忘却してしまう点にあります：ターゲット知識を削除する際に、モデルの一般的な知性も同時に破壊してしまうのです。

SAGO（符号制約非対称勾配最適化）は、問題を2タスクの非対称問題として再定式化する新しいフレームワークです：

主要タスク： 既存知識の保持
補助タスク： ターゲットコンテンツの忘却

この違いは表面的なものではありません——SAGOはグラジェント合成を使用し、PCGradアプローチを保持を優先する符号制約ロジックと組み合わせます。実際には、2つのタスクの勾配が競合する場合、SAGOは保持側に傾きます——主要目標は忘却ではなく、特定の知識を削除しながらモデルの一般的な能力を維持することだからです。

数値の差はどれほどですか？

WMDP（大量破壊兵器代理）Bioベンチマーク——モデルが危険な生物学的知識をどれほど「忘れた」かを測定する標準テスト——でSAGOは以下を達成します：

手法	MMLUスコア	忘却効果
ベースライン（標準アンラーニング後）	44.6%	—
PCGrad（以前のSOTA）	94.0%	同等
SAGO（新結果）	96.0%	同等

MMLU（大規模多タスク言語理解）は一般的な言語知性の主要ベンチマークです。標準アンラーニング後に事前訓練レベルの約75%から44.6%への低下は、モデルが有用な知識の大部分を失ったことを意味します。SAGOはスコアを96%に回復させます——実質的に損失なく、ターゲットのWMDP Bioコンテンツに対する忘却効果を維持しながら。

なぜこれがモデル安全性にとって重要なのですか？

アンラーニングは責任あるAI配布の重要な構成要素になっています——規制当局（EU AI法、GDPR）とユーザーはモデルオペレーターに対して特定の知識をオンデマンドで削除できることを求めています。この手法が一般的な能力を破壊するならば、オペレーターにはバイナリな選択しか残されません：モデルをそのまま維持するか、ゼロから再訓練するか。

SAGOは両方を実現できることを証明します——精密な忘却と知識の保持——訓練済みモデルへのアクセスを持つ誰もが利用できる既存の手法を使用して。

査読審査状況

この論文はACL 2026（計算言語学協会年次大会）に採択されており、これはトップNLP学会の一つです。これは査読を通過したことを意味します——品質と結果の信頼性の重要なシグナルです。著者（7名のチーム、筆頭はXiao）はプレプリントでコードを公開していませんが、ACLは従来、発表時にコードのリリースを要求しています。

SAGO：機械学習アンラーニングの新手法がMMLUを44.6%から96%に回復、忘却効果を維持しACL 2026採択

SAGOは実際に何を解決しますか？

数値の差はどれほどですか？

なぜこれがモデル安全性にとって重要なのですか？

査読審査状況

出典

関連ニュース