ArXiv：교차 언어 탈옥 — AUC 0.99 / 0.6-0.7 이동

Alanova, Minko, Sadiekh, Kokuykin 팀은 2026년 4월 28일 시맨틱 코드북을 통한 교차 언어 탈옥 공격에 대한 훈련 없는 방어를 제시하는 ArXiv 프리프린트를 발표했습니다. 이 접근법은 요청의 다국어 임베딩을 알려진 영어 탈옥 프롬프트의 고정 기반과 비교합니다. 정제된 벤치마크에서 AUC가 0.99에 달하지만, 분포 이동된 이종 공격에서는 AUC 0.60-0.70으로 하락하여 접근법의 한계를 보여줍니다.

Shirin Alanova, Bogdan Minko, Sabrina Sadiekh, Evgeniy Kokuykin은 2026년 4월 28일 프리프린트 **「시맨틱 코드북을 통한 교차 언어 탈옥 감지」**를 발표했습니다. LLM 안전에서 가장 끈질긴 문제 중 하나를 해결하려는 시도입니다：유해한 프롬프트의 번역이 영어 중심 가드레일을 우회합니다.

문제：교차 언어 보안 격차

추상 인용：

「대형 언어 모델의 안전 메커니즘은 여전히 주로 영어 중심이며, 다국어 배포에서 체계적인 취약점을 만들어냅니다. 선행 연구는 악의적인 프롬프트를 다른 언어로 번역하는 것이 탈옥 성공률을 크게 증가시킬 수 있음을 보여줍니다.」

다시 말해：**「폭탄 만드는 방법」**을 크로아티아어, 한국어 또는 암하라어로 번역하면 안전 필터의 훈련 데이터가 주로 영어이기 때문에 RLHF 훈련된 많은 필터가 반응하지 않습니다. 이는 현재 사후 학습의 구조적 특성입니다.

제안된 해결책

저자들은 블랙박스 LLM을 위한 훈련 없는 외부 가드레일을 제안합니다：

알려진 탈옥 프롬프트의 고정 영어 코드북 유지
들어오는 프롬프트（어떤 언어로든）를 다국어 임베딩 모델로 인코딩
임베딩을 코드북과 비교 — 유사도가 임계값을 초과하면 탈옥 시도로 표시

핵심：모델 재훈련 불필요, 언어별 필터 불필요. 임베딩 유사도만 사용.

결과

정제된 벤치마크：AUC 0.99까지

정제된 벤치마크（코드북과 같은 분포의 알려진 공격）에서 이 접근법은 거의 완벽하게 작동합니다 — AUC 0.99까지.

분포 이동 벤치마크：AUC 0.60-0.70

이종의 새 공격（분포 이동）으로 테스트하면 AUC가 0.60-0.70으로 하락합니다 — 우연보다 크게 나은 수준이지만, 결코 「해결책」이 아닙니다.

이 차이는 접근법의 실제 한계를 보여주기 때문에 중요합니다：코드북 기반 감지는 알려진 공격 분포에 대해 좋은 성능을 보이지만, 공격자가 적극적으로 생성하는 창의적인 새 공격에 대해서는 성능이 저하됩니다.

테스트된 모델과 언어

평가는 다음에서 수행되었습니다：

모델： Qwen, Llama, GPT-3.5
언어： 4개（획득한 추상에서 구체적인 목록이 없음）

왜 중요한가?

교차 언어 탈옥은 LLM을 전 세계에 배포하는 엔터프라이즈（예：10개 이상 언어의 고객 지원 챗봇）에게 특히 심각한 문제입니다. 영어 중심 안전 훈련은 명시적인 다국어 안전 훈련（비용이 높음）없이는 수정하기 어려운 구멍입니다.

이 연구의 실제적 함의：

코드북 접근법은 첫 번째 방어 레이어로 배포 가능 — 최소한의 지연, 훈련 없음
독립적인 방어로는 충분하지 않음 — 분포 이동 AUC 0.60-0.70은 다른 메커니즘（다국어 안전 RLHF, 출력 필터 등）과의 결합이 필요
AI 컴플라이언스를 위한 구체적인 개입 — EU AI Act와 NIST AI RMF는 다국어 배포에 대한 안전 메커니즘 문서화를 요구

이 연구는 어제 우리가 다뤘던（아첨과 조건부 비정렬） AI 안전 연구를 계속합니다 — 보편적 해결책 없이 각 공격 벡터를 커버하는 보안 진단의 단편 분야.

자주 묻는 질문

왜 LLM의 보안 메커니즘은 영어 중심입니까?

대부분의 레드팀 데이터셋과 파인튜닝 안전 데이터는 영어입니다. 유해한 프롬프트를 다른 언어로 번역함으로써 공격자는 학습된 안전 필터를 우회할 수 있습니다 — 선행 연구는 공격 성공률이 크게 증가함을 보여줍니다. 교차 언어 보안 격차는 현재 사후 학습의 구조적 특성입니다.

시맨틱 코드북은 어떻게 작동합니까?

시스템은 알려진 탈옥 프롬프트의 고정 영어 코드북을 유지합니다. 어떤 언어로든 들어오는 프롬프트는 다국어 임베딩 모델로 인코딩되고 코드북과 비교됩니다. 유사도가 임계값을 초과하면 해당 프롬프트는 탈옥 시도로 표시됩니다. 이 접근법은 훈련 없이 작동합니다.

정제된 테스트와 분포 이동 테스트 간의 격차는 얼마나 됩니까?

정제된 벤치마크에서 AUC 0.99 대 이종 분포 이동에서 AUC 0.60-0.70. 이는 코드북과 유사한 알려진 공격에는 잘 작동하지만 새롭거나 변형된 공격에는 성능이 저하됨을 의미합니다. 이 접근법은 여전히 다른 메커니즘과 결합된 첫 번째 방어 레이어로 유용합니다.

ArXiv：교차 언어 탈옥 공격에 대한 훈련 없는 가드레일이 정제된 벤치마크에서 AUC 0.99 달성, 분포 이동 시 0.60-0.70으로 하락