ArXiv: 대규모 언어 모델의 유해한 응답을 담당하는 뉴런 발견

대규모 언어 모델은 광범위한 안전 훈련을 받았음에도 불구하고 왜 때때로 유해한 응답을 생성할까요? 새로운 연구가 인과 매개 분석을 사용하여 모델 내부에서 이 현상을 일으키는 정확한 메커니즘을 밝혀냈습니다.

핵심 발견: 후반 레이어와 MLP 블록

연구자들은 유해한 콘텐츠 생성이 모델의 후반 레이어에서, 주로 어텐션 블록이 아닌 MLP(다층 퍼셉트론) 블록의 오류를 통해 발생한다는 것을 확인했습니다. 모델의 초기 레이어는 프롬프트의 유해한 컨텍스트를 이해하고, MLP를 통해 이러한 신호를 출력 레이어로 전파합니다.

제어 메커니즘으로서의 뉴런

특히 흥미로운 발견은 최종 레이어의 소수의 희소 뉴런 집합이 일종의 제어 메커니즘, 즉 유해한 콘텐츠가 생성될지 차단될지를 결정하는 “게이트”로 작동한다는 것입니다.

이는 모델의 안전 행동이 전체 네트워크에 분산되어 있는 것이 아니라, 식별 가능한 특정 구성 요소에 집중되어 있음을 의미합니다.

AI 안전에 대한 의미

이 발견은 표적 보안 개입의 가능성을 열어줍니다 — 전체 모델에 대한 비용이 많이 드는 RLHF 훈련 대신, 유해한 출력을 제어하는 핵심 뉴런만 정밀하게 수정하는 것이 가능할 수 있습니다. 이는 더 빠르고, 더 저렴하며, 더 정밀합니다.

RLHF(인간 피드백 기반 강화 학습)와 같은 현재의 방법은 모델을 “블랙박스”로 취급하고 외부에서 행동을 변경하려고 시도합니다. 이 연구는 보다 정밀한 메커니즘적 안전 접근법이 가능하다는 것을 시사합니다 — 마치 증상을 위한 약물 복용과 수술의 차이와 같습니다.

ArXiv: 대규모 언어 모델의 유해한 응답을 담당하는 뉴런 발견

핵심 발견: 후반 레이어와 MLP 블록

제어 메커니즘으로서의 뉴런

AI 안전에 대한 의미

출처

관련 뉴스