ArXiv: RePAIR, LLM이 재훈련 없이 목표 정보를 '잊을' 수 있게 지원
왜 중요한가
RePAIR는 사용자가 자연어 프롬프트를 통해 실시간으로 대규모 언어 모델에게 특정 정보를 잊도록 지시할 수 있는 새로운 인터랙티브 기계적 망각(machine unlearning) 프레임워크입니다. 핵심 혁신인 STAMP 방법은 모델 재훈련 없이 닫힌 형식으로 MLP 활성화를 거부 부분 공간으로 리디렉션하여, 모델의 유용성을 유지하면서 거의 0에 가까운 망각 점수를 달성합니다.
Jagadeesh Rachapudi가 이끄는 연구팀이 RePAIR를 발표했습니다——인터랙티브 기계적 망각(Interactive Machine Unlearning, IMU) 개념을 도입하는 프레임워크입니다. 이 시스템은 사용자가 자연어 프롬프트를 통해 LLM에게 목표 정보를 잊도록 지시할 수 있으며, 재훈련 없이 실시간으로 실행됩니다.
세 가지 모델 시스템은 어떻게 작동합니까?
RePAIR는 세 가지 전문화된 구성 요소로 이루어진 아키텍처를 사용합니다. 워치독 모델은 보호자 역할을 합니다——사용자의 프롬프트에 특정 정보를 잊으라는 요청이 포함되어 있는지 감지합니다. 서전 모델은 정확한 “수리” 지침을 생성합니다——신경망에서 어떤 활성화를 리디렉션해야 하는지 정의합니다. 환자 모델——사용 중인 LLM 자체——이 이러한 수리를 자율적으로 수행합니다.
이 세 부분으로 이루어진 아키텍처는 사용자가 단순히 “X라는 사람에 대한 모든 것을 잊으세요” 또는 “Y 프로세스에 관한 지식을 삭제하세요”라고 말하면, 시스템이 자동으로 모델 내의 관련 정보를 식별하고, 위치를 찾고, 무력화함을 의미합니다.
STAMP란 무엇이며, 왜 핵심 혁신입니까?
STAMP(의사역행렬을 통한 활성화 조작 조향)는 RePAIR의 핵심입니다. 이 방법은 의사역행렬의 닫힌 형식을 사용하여 다층 퍼셉트론(MLP) 레이어의 활성화를 거부 부분 공간——응답 거부에 해당하는 활성화 공간의 부분——으로 리디렉션합니다.
중요한 점은 STAMP가 어떠한 훈련도 필요로 하지 않는다는 것입니다. 변경 사항은 분석적으로 계산되어 재훈련에 필요한 수 시간이나 며칠이 아닌 수 초 안에 망각이 완료됩니다. 결과는 거의 0에 가까운 망각 점수(정보가 실제로 삭제됨)를 보이며 모델의 전반적인 유용성을 유지합니다——모델은 다른 모든 작업에 대해 정상적으로 계속 작동합니다.
이것이 규제와 개인정보 보호에 중요한 이유는 무엇입니까?
RePAIR는 세 가지 구체적인 시나리오를 다룹니다: 유해한 지식 억제(위험 물질 제조 방법 등), 오정보 수정(모델이 학습한 부정확한 사실 삭제), 사용자 요청에 따른 개인 데이터 삭제입니다.
마지막 시나리오는 유럽 GDPR과 잊혀질 권리(Right to Erasure)의 맥락에서 특히 관련성이 높습니다. 이전에는 훈련된 모델에서 특정 데이터를 삭제하려면 비용이 많이 들고 시간이 오래 걸리는 재훈련이 필요했습니다. RePAIR는 실용적인 대안을 제공합니다——온디맨드 망각, 실시간, 성능 저하 없음.
여러 벤치마크의 결과는 RePAIR가 6가지 기존 최첨단 기계적 망각 방법을 능가하며, 망각의 완전성과 유용한 능력 유지 사이에서 더 나은 균형을 제공함을 보여줍니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.