🤖 24 AI
🟡 🛡️ 보안 2026년 4월 19일 일요일 · 2 분 읽기

SAGO:새로운 머신 언러닝 방법으로 MMLU를 44.6%에서 96%로 복원, 망각 효과 유지하며 ACL 2026 채택

편집 일러스트: 기억의 일부를 선택적으로 제거하고 신경망 주변의 보호 레이어

왜 중요한가

SAGO는 머신 언러닝을 두 작업의 비대칭 문제로 재정식화하는 그래디언트 합성 프레임워크입니다——지식 보존을 주요 목표로, 망각을 보조 목표로 설정합니다. WMDP Bio 벤치마크에서 MMLU를 기준선 44.6%에서 PCGrad 94%를 넘어 96%까지 높이면서 동등한 망각 점수를 유지하여, 기존 언러닝 방법이 모델의 유용한 지식을 과도하게 파괴하는 주요 문제를 해결합니다.

SAGO는 실제로 무엇을 해결합니까?

머신 언러닝은 위험한 생물학적 절차나 개인 데이터 등 특정 지식을 완전한 재훈련 없이 이미 훈련된 언어 모델에서 제거하는 기술입니다. 문제는 기존 방법들이 너무 광범위하게 망각한다는 점입니다: 목표 지식을 제거하면서 동시에 모델의 일반적인 지능도 파괴합니다.

SAGO(부호 제약 비대칭 그래디언트 최적화)는 문제를 두 작업의 비대칭 문제로 재정식화하는 새로운 프레임워크입니다:

  • 주요 작업: 기존 지식 보존
  • 보조 작업: 목표 콘텐츠 망각

이 차이는 표면적인 것이 아닙니다——SAGO는 그래디언트 합성을 사용하여 PCGrad 접근법을 보존을 우선시하는 부호 제약 로직과 결합합니다. 실제로는 두 작업의 그래디언트가 충돌할 때 SAGO는 보존 쪽으로 기웁니다——주요 목표는 망각이 아니라 특정 지식을 제거하면서 모델의 일반적인 역량을 유지하는 것이기 때문입니다.

수치 차이는 어느 정도입니까?

WMDP(대량 살상 무기 프록시) Bio 벤치마크——모델이 위험한 생물학적 지식을 얼마나 「망각」했는지 측정하는 표준 테스트——에서 SAGO는 다음을 달성합니다:

방법MMLU 점수망각 효과
기준선(표준 언러닝 후)44.6%
PCGrad(이전 SOTA)94.0%동등
SAGO(새 결과)96.0%동등

MMLU(대규모 멀티태스크 언어 이해)는 일반 언어 지능의 주요 벤치마크입니다. 표준 언러닝 후 사전 훈련 수준 약 75%에서 44.6%로의 하락은 모델이 유용한 지식의 상당 부분을 잃었음을 의미합니다. SAGO는 점수를 96%로 복원합니다——사실상 손실 없이, 목표 WMDP Bio 콘텐츠에 대한 망각 효과를 유지하면서.

왜 이것이 모델 안전성에 중요합니까?

언러닝은 책임 있는 AI 배포의 핵심 구성 요소가 되었습니다——규제 기관(EU AI 법, GDPR) 및 사용자들이 모델 운영자에게 특정 지식을 요청에 따라 제거할 수 있을 것을 요구합니다. 방법이 일반적인 역량을 파괴한다면 운영자에게는 이진 선택만 남습니다: 모델을 있는 그대로 유지하거나 처음부터 재훈련해야 합니다.

SAGO는 두 가지를 모두 달성할 수 있음을 증명합니다——정밀한 망각과 지식 보존——훈련된 모델에 이미 접근할 수 있는 모든 사람이 사용할 수 있는 기존 방법으로.

동료 심사 상태

이 논문은 ACL 2026(컴퓨터 언어학 협회 연차 총회)에 채택되었으며, 이는 최고 NLP 학회 중 하나입니다. 이는 동료 심사를 통과했음을 의미합니다——품질과 결과 신뢰성의 중요한 신호입니다. 저자들(7인 팀, 제1저자 Xiao)은 프리프린트에서 코드를 공개하지 않았지만, ACL은 전통적으로 발표 시 코드 공개를 요구합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.