ArXiv: 훈련 없는 탈옥 — 연구자들이 추론 시간에 AI 안전 가드레일 제거

생각보다 깊지 않은 안전 계층

Wenpeng Xing과 동료들이 이끄는 과학자 팀은 4월 9일 대규모 언어 모델에 대한 새로운 유형의 탈옥 공격을 설명하는 논문을 발표했습니다. 이 방법은 **Contextual Representation Ablation(CRA)**이라고 불리며 사전 훈련, 프롬프트 최적화 또는 모델 가중치 수정이 전혀 필요하지 않습니다.

CRA 작동 방식

논문의 시작 논제는 안전 정렬된 모델에서 “거부” 행동이 은닉 상태 내의 좁고 저차원의 부분 공간을 차지한다는 것입니다. 즉, “그 일을 도와드릴 수 없습니다”라는 응답은 복잡한 분산 로직에서 나오는 것이 아니라 기계적으로 식별될 수 있는 국소화된 신호에서 나옵니다.

절차는 다음과 같습니다:

거부 응답을 동반하는 활성화 패턴 식별
디코딩 중에 그러한 활성화를 동적으로 제거(억제)
모델은 안전 계층이 결코 존재하지 않았던 것처럼 텍스트 생성을 계속

이것이 오픈소스 생태계에 의미하는 바

실증적 평가는 CRA가 여러 안전 정렬된 오픈소스 모델에서 기준선 접근 방식을 “상당히 능가한다”는 것을 보여줍니다. 초록에는 모델 이름이 지정되지 않았지만 결과는 명확한 메시지를 전달합니다. 정렬 훈련은 깊은 방어를 구축하지 않으며, 큰 자원 없이 우회할 수 있는 얇은 활성화 장벽을 구축한다는 것입니다.

의미

이 논문에는 두 가지 차원이 있습니다. 보안 연구자에게 이것은 현재 표준으로서의 사후 훈련 정렬이 근본적인 한계가 있다는 또 다른 증거입니다. 오픈 웨이트 모델 업계(Llama, Mistral, Qwen, DeepSeek)에게 이는 그들이 제공하는 모든 “안전한” 모델이 클라이언트 측에서 쉽게 수정될 수 있음을 의미합니다. 이 논문은 감정 표현 또한 인과적으로 행동을 수정한다는 Anthropic의 이전 발견과 완벽하게 일치합니다. 두 연구 모두 “정렬”이 모델의 핵심이 아닌 표면에서 일어난다는 것을 보여줍니다.

ArXiv: 훈련 없는 탈옥 — 연구자들이 추론 시간에 AI 안전 가드레일 제거

생각보다 깊지 않은 안전 계층

CRA 작동 방식

이것이 오픈소스 생태계에 의미하는 바

의미

출처

관련 뉴스