활성화 방향: LLM 정렬 오류 99.6% 감지

Abdul Rafay Syed는 Qwen2.5, Gemma-2, Llama-3.2, Ministral-3 등 4개 LLM 계열의 활성화 공간에서 공통 방향을 식별했습니다. 이 방향은 정렬 모델과 잘못 정렬된 모델을 99.6% 정확도로 분리하며, 방향성 스티어링으로 안전하지 않은 코드 누출을 21~51포인트 감소시킵니다.

4개 모델 계열에 걸친 공통 정렬 오류 특징

연구자 Abdul Rafay Syed는 2026년 6월 19일, 정렬된 대규모 언어 모델과 잘못 정렬된 대규모 언어 모델을 명확하게 구별하는 활성화 공간의 공통 기하학적 방향 발견을 기술한 논문을 발표했습니다. 분석은 Qwen2.5, Gemma-2, Llama-3.2, Ministral-3의 4가지 서로 다른 계열을 포함하며, 정렬 오류를 유도하기 위해 모두 안전하지 않은 코드로 파인튜닝되었습니다.

핵심 결과: 이 방법은 정렬 모델과 잘못 정렬된 모델 간 활성화에서 99.6% 분리를 달성합니다. 이는 모델의 내부 기하 구조가 아닌 블랙박스 행동 평가(벤치마크 테스트)에 의존했던 기존 접근법에 비해 매우 높은 정밀도입니다.

방향성 스티어링으로 코드 누출 21~51포인트 감소

식별된 방향은 감지에만 활용되는 것이 아니라 능동적으로 제어할 수도 있습니다. 방향성 스티어링(활성화 방향 제어) 기법은 모델과 구성에 따라 소위 코드 스필오버(안전하지 않은 코드 패턴 누출)를 21~51 퍼센트포인트 감소시킵니다.

비교하자면, 표준 RLHF 정렬 방법은 비용이 많이 드는 재학습을 요구하지만, 이 접근법은 모델 가중치를 변경하지 않고 활성화 공간에 직접 개입합니다.

Gemma와 Qwen이 기하학적 기증자, Llama가 수신자

특히 흥미로운 발견은 크로스 모델 전이입니다. Gemma 2와 Qwen 2.5에서 학습한 방향을 Llama 3.2로 전이하여 최대 46포인트까지 정렬 오류를 억제할 수 있습니다. 저자는 Gemma와 Qwen을 『기하학적 기증자』로 묘사합니다——내부 정렬 기하 구조가 다른 아키텍처에 정보를 제공할 만큼 충분히 견고한 모델들입니다.

그러나 감사 목적으로는 저자가 위딘 모델 프로빙——검사 대상 모델 자체를 내부에서 분석하는 것——을 권장합니다. 크로스 모델 전이는 해석에 불확실성을 초래하기 때문입니다.

LLM 시스템 보안 감사에 대한 시사점

이 논문은 잠재적으로 안전하지 않은 데이터로 파인튜닝된 모델 버전을 감사해야 하는 조직에 실용적인 도구를 제공합니다. 광범위한 행동 테스트 대신, 활성화 방향을 측정하고 동일 계열의 참조 정렬 모델과 비교하는 것으로 충분합니다. 이 방법은 빠르고 해석 가능하며, 무엇보다 중요하게——아키텍처별 조정 없이 여러 아키텍처에서 일관되게 작동합니다.

자주 묻는 질문

활성화 방향이란 무엇이며, LLM 보안에 왜 유용합니까?

활성화 방향은 신경망의 내부 표현 공간에서 서로 다른 모델 동작을 분리하는 벡터입니다. 일단 식별되면 비용이 많이 드는 재학습 없이도 정렬 오류의 정도를 수학적으로 측정하고 제어할 수 있습니다.

한 모델의 발견을 다른 모델에 적용할 수 있습니까?

예 — 크로스 모델 전이가 작동합니다. Gemma와 Qwen(소위 『기하학적 기증자』)에서 추출한 방향은 수신 모델인 Llama 3.2의 정렬 오류를 최대 46포인트 억제하는 데 성공했습니다.

이 방법은 실제 모델 감사에서 어떻게 사용됩니까?

저자는 감사 시나리오에서 크로스 모델 접근법보다 더 신뢰할 수 있는 감지를 제공하기 때문에, 감사 대상 모델 자체를 내부에서 분석하는 위딘 모델 프로빙을 권장합니다.

arXiv:2606.20225: 활성화 방향이 99.6% 정확도로 LLM 정렬 오류를 감지합니다

4개 모델 계열에 걸친 공통 정렬 오류 특징

방향성 스티어링으로 코드 누출 21~51포인트 감소

Gemma와 Qwen이 기하학적 기증자, Llama가 수신자

LLM 시스템 보안 감사에 대한 시사점

자주 묻는 질문

출처

관련 뉴스