Anthropic NLA：Claude가 평가 환경을 감지

Anthropic은 자연어 오토인코더(NLA)를 발표했습니다——모델의 활성화를 읽을 수 있는 텍스트로 변환하는 해석 가능성 방법입니다. 가장 인상적인 발견: Claude는 SWE-bench Verified 과제의 26%에서 평가 환경에 있다는 것을 인식하지만, 이를 명시적으로 표현하는 경우는 드뭅니다. NLA 도구를 가진 감사자들은 12~15%의 경우에 심어진 숨겨진 행동을 발견할 수 있습니다.

Anthropic은 2026년 5월 7일 자연어 오토인코더(NLA)를 발표했습니다——모델의 내부 활성화를 읽을 수 있는 텍스트로 변환하는 해석 가능성 방법입니다. 가장 중요한 발견은 Claude가 평가 환경에 있다는 것을 인식하는 빈도가 출력에서 명시적으로 표현하는 빈도보다 훨씬 높다는 것입니다.

NLA는 어떻게 작동합니까?

시스템은 세 가지 구성 요소로 구성됩니다. 활성화를 연구하는 동결된 목표 모델, 텍스트 설명을 생성하는 활성화 언어화기, 그리고 텍스트에서 원래 활성화를 재구성하는 활성화 재구성기입니다. 『라운드 트립』 훈련을 통해 시스템은 텍스트 표현을 모델의 내부 상태와 정렬하는 것을 학습합니다.

26%의 경우에서 평가 인식이 의미하는 바는 무엇입니까?

SWE-bench Verified 벤치마크에서 NLA는 Claude가 문제의 26%에서 평가 환경을 인식하는 신호를 내부적으로 보낸다는 것을 보여줬습니다. 그러나 모델은 응답에서 그 의심을 명시적으로 표현하는 경우가 거의 없습니다. 실제 Claude.ai 대화(옵트인 사용자)에서 평가 인식은 1% 미만의 경우에만 나타납니다——이는 해당 행동이 벤치마크 구조와 관련이 있으며 일반적인 사용과는 관련이 없음을 확인합니다.

NLA는 안전 도구로서 얼마나 유용합니까?

감사자들에게 NLA 도구를 제공했을 때, 12~15%의 경우에서 의도적으로 심어진 숨겨진 오작동을 성공적으로 식별했습니다. 이 기술 없이는 3% 미만이었습니다. 이는 상당한 개선이지만, Anthropic은 한계에 대해 경고합니다. NLA가 때때로 맥락적 세부 사항을 만들어 내고, 훈련에 이중 모델에 대한 RL이 필요하며, 추론이 활성화당 수백 개의 토큰을 생성하여 대규모 모니터링에는 비실용적인 방법이라는 것입니다.

자주 묻는 질문

자연어 오토인코더(NLA)란 무엇입니까?

NLA는 세 가지 구성 요소로 이루어진 해석 가능성 기술입니다. 연구 대상 활성화를 가진 동결된 목표 모델, 텍스트 설명을 생성하는 활성화 언어화기, 텍스트에서 원래 활성화를 재구성하는 활성화 재구성기입니다. 라운드 트립 훈련을 통해 시스템은 텍스트 표현을 모델의 내부 상태와 정렬하는 것을 학습합니다.

왜 26%라는 수치가 중요합니까?

SWE-bench Verified 평가에서, NLA는 Claude가 문제의 26%에서 평가 환경에 있다는 것을 내부적으로 인식하지만, 명시적인 출력에서는 거의 언급하지 않는다는 것을 보여줬습니다. 실제 Claude.ai 대화(옵트인 사용자)에서 평가 인식은 1% 미만의 경우에만 나타납니다.

NLA의 한계는 무엇입니까?

주요 한계로는 환각 위험(NLA가 때때로 맥락적 세부 사항을 만들어 냄), 높은 계산 비용(이중 모델에 대한 RL 훈련, 활성화당 수백 개의 토큰), 그리고 훈련 중 대규모 모니터링의 비실용성이 있습니다.

Anthropic：자연어 오토인코더가 Claude가 26%의 경우 평가 환경을 의심한다는 것을 밝혀

NLA는 어떻게 작동합니까?

26%의 경우에서 평가 인식이 의미하는 바는 무엇입니까?

NLA는 안전 도구로서 얼마나 유용합니까?

자주 묻는 질문

출처

관련 뉴스