arXiv:2605.16090: CrossMPI 이미지만으로 VLM 공격

arXiv:2605.16090은 텍스트를 전혀 사용하지 않고 이미지 픽셀에 대한 보이지 않는 섭동만으로 비전-언어 모델에 악의적인 지시를 주입하는 CrossMPI를 제안합니다. 연구자들은 멀티모달 통합의 핵심 레이어가 모델 중간부에 위치함을 발견했으며, 공격 평균 성공률(ASR)은 66.36%로 모든 기존 기준선 대비 40.91퍼센트포인트 앞섰습니다.

CrossMPI란 무엇이며 왜 위험합니까?

연구자들(Hao Yang, Zhuo Ma, Yang Liu 등)이 발표한 논문 arXiv:2605.16090은 CrossMPI를 제안합니다. 이는 공격자 텍스트를 전혀 사용하지 않고 이미지 섭동만으로 대형 비전-언어 모델(LVLM)에 대한 프롬프트 인젝션 공격을 수행하는 방법입니다.

프롬프트 인젝션은 AI 모델에 숨겨진 지시를 심어 동작을 바꾸는 공격입니다. CrossMPI는 이 원리를 멀티모달 공간으로 확장합니다. 악의적인 지시는 인간의 눈으로는 인지할 수 없는 미세한 픽셀 변화――적대적 섭동――에 인코딩됩니다.

비전-언어 모델은 이미지와 텍스트를 받아 내부적으로 공통 표현 공간에 융합한 후 응답을 생성합니다. 바로 이 단계――멀티모달 통합――가 가장 취약한 공격 지점임이 밝혀졌습니다.

기존 전제를 뒤집는 발견: 핵심 레이어는 모델 중간부에 있다

기존 연구에서는 Transformer 아키텍처의 출력 레이어가 조작에 가장 민감하다고 가정했습니다. CrossMPI는 이를 실험적으로 반박합니다.

섭동에 최적인 레이어는 VLM 중간부에 있으며, 말단이 아닙니다. 출력에 집중된 방어 메커니즘은 더 깊이 심어진 공격을 놓칩니다. 이 중간 레이어의 최적화 공간은 약 10⁷ 파라미터(시각적 임베딩의 10⁵와 비교)로, 이것이 공격 도달 범위가 극적으로 확장되는 근본 이유입니다.

이 방법은 레이어 선택 전략(핵심 레이어 자동 위치 파악)과 감쇠 섭동 예산 할당(의미적으로 중요한 영역에 가까운 픽셀에 더 큰 섭동 부여)을 결합합니다.

실험 결과: 기준선 방법을 대폭 앞서다

CrossMPI는 6개의 VLM에서 테스트되었습니다. MiniGPT4-Llama2, MiniGPT4-Vicuna, InstructBLIP, BLIP-2, BLIVA, Qwen2.5-VL을 3개 데이터셋(MSCOCO, ImageNet, TextVQA)에서 평가했습니다.

평균 공격 성공률(ASR)은 **66.36%**로, 4개 기준선 방법 평균을 40.91포인트 상회했습니다(ARE-W: 8.24%; CI: 54.57%; ATPI: 4.41%). BLIP-2와 MSCOCO에서 ASR은 **96.08%**에 달했으며, 시각적 왜곡은 최소화되었습니다(LPIPS ~18–20, 기준선의 70–85와 비교).

보안에 대한 심각한 시사점

입력 이미지를 제어할 수 있는 공격자――예를 들어 문서, 사진 또는 웹 콘텐츠――는 필터가 탐지할 수 있는 텍스트 없이도 VLM의 동작을 변경할 수 있습니다. 모든 프로덕션 환경의 VLM 구현(문서 분석, 의료 진단, 시각 기능을 갖춘 챗봇)이 잠재적으로 취약합니다.

저자들은 방어 전략이 출력 레이어에 대한 집중을 멈추고 실제 멀티모달 통합이 이루어지는 모델 중간부로 시선을 돌려야 한다고 결론짓습니다.

자주 묻는 질문

비전-언어 모델(VLM)이란 무엇입니까?

비전-언어 모델(VLM)은 이미지와 텍스트를 동시에 이해하는 멀티모달 AI 시스템입니다. 대표적인 예로 BLIP-2, InstructBLIP, Qwen2.5-VL이 있습니다. 모델은 시각적·텍스트 입력을 받아 내부적으로 공통 표현 공간에 통합한 후 텍스트 응답을 생성합니다.

CrossMPI 공격은 어떻게 작동합니까?

CrossMPI는 인간의 눈에 보이지 않는 미세한 픽셀 변화(적대적 섭동)를 모델의 은닉 상태 공간에서 직접 최적화합니다. 시각적 임베딩(10⁵ 파라미터)이 아닌 멀티모달 통합이 이루어지는 중간 레이어(10⁷ 파라미터)를 표적으로 삼아 악의적인 지시 주입 성공률을 극적으로 높입니다.

『모델 중간부』라는 발견이 왜 중요합니까?

기존의 적대적 공격 연구는 Transformer 아키텍처의 마지막(출력) 레이어가 조작에 가장 취약하다는 전제를 기반으로 했습니다. CrossMPI는 그 반대를 실험적으로 증명합니다. 멀티모달 통합의 핵심 레이어는 VLM의 『중간부』에 존재하므로, 출력 레이어에 집중해온 모든 기존 방어 메커니즘은 재평가가 필요합니다.

arXiv:2605.16090: CrossMPI――이미지 섭동만으로 비전-언어 모델을 공격하는 크로스모달 프롬프트 인젝션

CrossMPI란 무엇이며 왜 위험합니까?

기존 전제를 뒤집는 발견: 핵심 레이어는 모델 중간부에 있다

실험 결과: 기준선 방법을 대폭 앞서다

보안에 대한 심각한 시사점

자주 묻는 질문

출처

관련 뉴스