머신 언러닝이란 무엇입니까?

머신 언러닝은 이미 훈련된 모델에서 특정 지식을 선택적으로 제거하는 프로세스입니다——예를 들어 특정 기억된 개인 정보나 위험한 능력——완전한 재훈련 없이 수행합니다.

MMLU 44.6%가 문제인 이유는 무엇입니까?

표준 언러닝 방법은 모델의 일반 지식도 파괴하여 MMLU(일반 벤치마크)가 크게 떨어집니다. SAGO는 일반 역량을 유지하면서 망각을 달성할 수 있음을 보여줍니다.

SAGO：새로운 머신 언러닝 방법으로 MMLU를 44.6%에서 96%로 복원, 망각 효과 유지하며 ACL 2026 채택

SAGO는 실제로 무엇을 해결합니까?

머신 언러닝은 위험한 생물학적 절차나 개인 데이터 등 특정 지식을 완전한 재훈련 없이 이미 훈련된 언어 모델에서 제거하는 기술입니다. 문제는 기존 방법들이 너무 광범위하게 망각한다는 점입니다: 목표 지식을 제거하면서 동시에 모델의 일반적인 지능도 파괴합니다.

SAGO(부호 제약 비대칭 그래디언트 최적화)는 문제를 두 작업의 비대칭 문제로 재정식화하는 새로운 프레임워크입니다:

주요 작업: 기존 지식 보존
보조 작업: 목표 콘텐츠 망각

이 차이는 표면적인 것이 아닙니다——SAGO는 그래디언트 합성을 사용하여 PCGrad 접근법을 보존을 우선시하는 부호 제약 로직과 결합합니다. 실제로는 두 작업의 그래디언트가 충돌할 때 SAGO는 보존 쪽으로 기웁니다——주요 목표는 망각이 아니라 특정 지식을 제거하면서 모델의 일반적인 역량을 유지하는 것이기 때문입니다.

수치 차이는 어느 정도입니까?

WMDP(대량 살상 무기 프록시) Bio 벤치마크——모델이 위험한 생물학적 지식을 얼마나 「망각」했는지 측정하는 표준 테스트——에서 SAGO는 다음을 달성합니다:

방법	MMLU 점수	망각 효과
기준선(표준 언러닝 후)	44.6%	—
PCGrad(이전 SOTA)	94.0%	동등
SAGO(새 결과)	96.0%	동등

MMLU(대규모 멀티태스크 언어 이해)는 일반 언어 지능의 주요 벤치마크입니다. 표준 언러닝 후 사전 훈련 수준 약 75%에서 44.6%로의 하락은 모델이 유용한 지식의 상당 부분을 잃었음을 의미합니다. SAGO는 점수를 96%로 복원합니다——사실상 손실 없이, 목표 WMDP Bio 콘텐츠에 대한 망각 효과를 유지하면서.

왜 이것이 모델 안전성에 중요합니까?

언러닝은 책임 있는 AI 배포의 핵심 구성 요소가 되었습니다——규제 기관(EU AI 법, GDPR) 및 사용자들이 모델 운영자에게 특정 지식을 요청에 따라 제거할 수 있을 것을 요구합니다. 방법이 일반적인 역량을 파괴한다면 운영자에게는 이진 선택만 남습니다: 모델을 있는 그대로 유지하거나 처음부터 재훈련해야 합니다.

SAGO는 두 가지를 모두 달성할 수 있음을 증명합니다——정밀한 망각과 지식 보존——훈련된 모델에 이미 접근할 수 있는 모든 사람이 사용할 수 있는 기존 방법으로.

동료 심사 상태

이 논문은 ACL 2026(컴퓨터 언어학 협회 연차 총회)에 채택되었으며, 이는 최고 NLP 학회 중 하나입니다. 이는 동료 심사를 통과했음을 의미합니다——품질과 결과 신뢰성의 중요한 신호입니다. 저자들(7인 팀, 제1저자 Xiao)은 프리프린트에서 코드를 공개하지 않았지만, ACL은 전통적으로 발표 시 코드 공개를 요구합니다.

SAGO：새로운 머신 언러닝 방법으로 MMLU를 44.6%에서 96%로 복원, 망각 효과 유지하며 ACL 2026 채택

SAGO는 실제로 무엇을 해결합니까?

수치 차이는 어느 정도입니까?

왜 이것이 모델 안전성에 중요합니까?

동료 심사 상태

출처

관련 뉴스