ICML 2026：이미지, VLM 필터 40.9% 확률로 돌파

연구자 Aharon Azulay, Jan Dubiński, Zhuoyun Li가 ICML 2026에서 시각 모달리티를 활용해 비전-언어 모델의 안전 정렬을 우회하는 4가지 공격 클래스를 발표했습니다. 시각 인코더는 Claude Haiku 4.5에서 40.9%의 성공률을 달성했으나 동등한 텍스트 공격은 10.7%만 필터를 돌파했으며, 이미지가 순수 언어 모델에는 존재하지 않는 공격 클래스를 열어준다는 사실이 확인되었습니다.

Aharon Azulay, Jan Dubiński, Zhuoyun Li로 구성된 팀은 2026년 5월 1일 ArXiv에 논문 **“시각 모달리티를 통한 비전-언어 모델 탈옥”**을 발표했습니다. 이 논문은 국제 기계 학습 학술대회(ICML) 2026에 채택되었으며, 비전-언어 모델(VLM)의 시각 입력이 텍스트로 훈련된 안전 정렬의 범위 밖에 존재하는 공격 표면임을 체계적으로 문서화합니다.

이미지가 열어주는 새로운 공격 벡터란 무엇인가?

시각 모달리티는 안전 정렬을 우회하기 위한 미탐색 공격 표면을 나타낸다고 저자들은 말합니다. 텍스트로 훈련된 필터는 이미지가 자연스럽게 가능하게 하는 의미론적 변환——지시를 이미지 기호로 인코딩하거나, 객체를 대체하거나, 시각적 유추 조합——을 커버하지 못합니다. 그 결과, 순수 언어 모델에서는 거부될 공격이 시각 채널을 통해 통과합니다.

저자들은 4가지 공격 클래스를 제시했습니다:

시각 인코더 — 해독 범례가 포함된 시각 기호 시퀀스로 유해한 지시를 인코딩
객체 대체 — 유해 용어(폭탄)를 무해한 것(바나나)으로 대체하고, 대체된 용어를 사용해 유해한 행동을 요청
이미지 내 텍스트 대체 — 시각적 맥락이 원래 해석을 유지한 채 유해한 텍스트를 무해한 언어 수단으로 대체
유추 퍼즐 — 해결책이 금지된 개념에 대한 추론을 필요로 하는 시각 퍼즐

공격 성공률의 구체적인 지표는?

Claude Haiku 4.5에서 시각 인코더는 40.9%의 성공률을 달성했습니다. 동일한 개념의 텍스트 공격은 필터를 **10.7%**만 돌파합니다. 차이는 거의 4배이며, 이는 시각 모달리티가 표준 프런티어 모델의 일부가 되기 전에는 불가능했던 차이입니다.

평가는 6개의 프런티어 VLM을 대상으로 합니다. 나머지 5개 모델의 구체적인 수치는 논문 본문에 제시되어 있으나, 저자들이 Claude Haiku 4.5를 대표적 사례로 선택한 이유는 강력한 안전 정렬을 갖춘 것으로 알려진 매우 최근 모델이기 때문입니다.

이는 기업과 보안팀에게 무엇을 의미하는가?

이 논문은 텍스트 프롬프트 공격에 거의 전적으로 의존하는 기존 레드팀 방법론이 VLM 위험을 체계적으로 과소평가하고 있음을 시사합니다. 멀티모달 에이전트를 배포하는 보안팀은 레드팀 코퍼스를 이미지 입력——특히 암호화 기호 시퀀스, 시각적 대체 공격, 차단된 개념에 대한 추론을 활성화하는 유추 퍼즐——으로 확장해야 합니다.

더 넓은 함의: 텍스트에 적용된 안전 정렬(RLHF——인간 피드백 기반 강화 학습)은 시각 모달리티에 일반화되지 않습니다. 크로스모달 정렬은 구현 세부 사항이 아닌 연구 우선순위가 되었습니다.

논문은 ArXiv에서 ID 2605.00583으로 이용 가능하며 ICML 2026에서 발표될 예정입니다.

자주 묻는 질문

VLM 탈옥에서 시각 공격은 텍스트 공격보다 얼마나 더 성공적입니까?

Claude Haiku 4.5에서 시각 인코더는 40.9%의 성공률을 달성하는 반면, 동등한 텍스트 공격은 10.7%만 필터를 돌파합니다——거의 4배의 차이입니다.

논문이 정의한 4가지 공격 클래스는 무엇입니까?

해독 범례가 포함된 암호화 시각 기호 시퀀스, 유해 객체를 무해한 것으로 대체(폭탄→바나나), 시각적 맥락이 원래 해석을 유지한 채 이미지의 유해 텍스트를 무해한 텍스트로 대체, 그리고 금지된 개념에 대한 추론이 필요한 유추 퍼즐입니다.

연구에서 몇 개의 모델이 테스트되었습니까?

6개의 프런티어 비전-언어 모델입니다. 이 논문은 ICML 2026에 채택되었으며, 순수 텍스트 LLM에서는 구조적으로 불가능한 공격을 설명합니다.

ArXiv：시각 이미지가 VLM 안전 필터를 40.9% 확률로 우회, ICML 2026 논문 공개

이미지가 열어주는 새로운 공격 벡터란 무엇인가?

공격 성공률의 구체적인 지표는?

이는 기업과 보안팀에게 무엇을 의미하는가?

자주 묻는 질문

출처

관련 뉴스