🟡 🛡️ 보안 게시일: · 3 분 읽기 ·

HARC: 유해성과 거부 방향 결합으로 탈옥 방지하는 새로운 파인튜닝 방법

에디토리얼 일러스트레이션: 탈옥 공격 방어를 위한 유해성과 거부 탐지 결합 HARC 방법

연구자들은 내부 모델 표현 수준에서 탈옥이 성공하는 이유를 발견하고 '유해성 및 거부 방향'을 명시적으로 결합하는 HARC 파인튜닝 방법을 개발했다. 이 방법은 테스트한 6가지 방법 중 강건성, 능력, 사용성의 균형에서 가장 강력한 결과를 보여준다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

연구자 Shei Pern Chua와 Fangzhao Wu는 2026년 7월 1일 탈옥 공격이 대형 언어 모델의 안전 정렬을 우회하는 정확한 메커니즘을 밝히고, HARC라는 새로운 파인튜닝 방법의 형태로 구체적인 해결책을 제안하는 논문을 발표했다.

탈옥이 실제로 성공하는 이유는?

지금까지의 이해는 주로 현상론적이었다. 특정 쿼리 공식화가 모델을 ‘속여’ 유해한 콘텐츠를 생성하게 만든다는 것은 알았지만, 네트워크 내부의 메커니즘은 불분명했다. HARC 연구는 해석 가능성 방법론으로 이 메커니즘을 밝혀낸다.

정렬된 LLM에는 내부 표현 공간에 (적어도) 두 개의 별개 ‘방향’이 존재한다: 유해성 방향(콘텐츠가 얼마나 위험한지를 인코딩)과 거부 방향(모델이 요청을 거부할지를 인코딩). 핵심 발견: 탈옥은 두 방향 모두를 동시에 억제할 필요 없이 둘 중 하나를 억제하는 것으로 작동한다. 거부 방향만 억제하는 공격은 유해성 방향이 활성 상태로 남아 있어도 모델이 유해한 콘텐츠를 생성하게 만들기에 충분하다.

분석은 또한 프롬프트뿐만 아니라 응답의 토큰 위치까지 확장되었다. 연구자들은 초기 프롬프트 분석이 문제를 놓쳤을 때도 모델이 콘텐츠를 생성하는 동안 유해성을 인식할 수 있다는 것을 확인했다. 이 발견은 입력 프롬프트 수준에서만 작동하는 안전 메커니즘 설계에 중요한 시사점을 가진다.

다양한 클래스의 탈옥 공격은 유해성-거부 평면에서 분리 가능한 영역을 차지한다 — 이는 모델의 내부 공간에서 이런 공격들이 무작위적 다양성이 아닌 기하학적 구조를 가진다는 것을 의미한다.

HARC: 두 방향을 결합하는 파인튜닝

분석에 그치지 않고 HARC는 파인튜닝을 위한 구체적인 처방을 제공한다. 이 방법은 프롬프트와 응답 양쪽의 위치에 걸쳐 유해성과 거부 표현을 명시적으로 결합한다 — 독립적으로 억제될 수 있는 별개 차원이 아닌 공동 신호로서 ‘위험을 보았다’와 ‘생성을 거부한다’ 모두를 반영하도록 모델을 강제한다.

결과: 모델이 두 방향 중 하나만 타겟으로 하는 공격에 강건해지는데, 그것들이 이제 표현 공간에서 긴밀하게 연결되어 있기 때문이다.

HARC는 안전 훈련의 주요 접근 방식을 포괄하는 6가지 기준 방법과 비교하여 — 훈련 시간(training-time)과 추론 시간(inference-time) 모두에서 — 강건성, 능력, 사용성의 가장 강력한 균형을 달성한다.

전이 가능성과 실용적 적용

특히 중요한 것은 HARC가 특정 아키텍처 적응을 필요로 하지 않는다는 점이다 — 이 방법은 두 가지 크기의 5가지 모델 계열에서 테스트되었으며 추가 수정 없이 전이된다. 이는 HARC를 단순한 실험실 발견이 아닌 기존 파인튜닝 파이프라인에 실용적으로 적용 가능한 처방으로 만든다.

연구의 메커니즘적 관점은 더 넓은 가치도 제공한다. 정렬된 LLM에서 안전 인식 표현이 어떻게 구성되는지를 직접 매핑함으로써, 안전 적용과 무관하게 모델 해석 가능성에 귀중한 기여를 한다.

이 논문은 산업계가 모델 능력을 타협하지 않는 안전 방법을 집중적으로 찾고 있는 시점에 등장했다 — HARC는 올바른 수준의 내부 표현을 동시에 타겟으로 함으로써 두 가지 목표를 모두 달성할 수 있음을 증명한다.

자주 묻는 질문

HARC란 무엇이며 어떤 역할을 하는가?
HARC는 LLM의 유해성과 거부에 대한 내부 표현을 명시적으로 결합하는 파인튜닝 방법으로, 네트워크에서 두 '방향' 중 하나만 억제하려는 탈옥 공격에 모델을 강건하게 만든다.
탈옥은 어떻게 안전 정렬을 우회하는가?
연구에 따르면 탈옥은 모델의 잔차 스트림에서 '거부 방향' 또는 '유해성 방향' 중 하나를 억제함으로써 작동한다 — 반드시 둘 다 동시에 억제할 필요는 없다. 이를 통해 유해성 방향이 활성 상태로 남아 있어도 모델이 유해한 콘텐츠를 생성하게 된다.
HARC는 몇 가지 모델에서 테스트되었는가?
HARC는 두 가지 크기의 5가지 모델 계열에서 평가되었으며, 이 방법은 특정 아키텍처 적응이 필요 없고 모델 간에 전이 가능하다.