ArXiv: MemJack — 다중 에이전트 공격이 최대 90% 성공률로 비전-언어 모델 보호를 무력화
왜 중요한가
MemJack는 기존의 픽셀 섭동 방식 대신 다수 에이전트의 협조적 협력을 활용하는 비전-언어 모델(VLM) 대상 새로운 탈옥 공격 프레임워크입니다. 수정되지 않은 COCO 이미지로 테스트한 결과 Qwen3-VL-Plus에 대해 71.48%의 공격 성공률을 달성하였으며, 계산 예산을 확대하면 90%까지 향상됩니다. 연구자들은 방어 연구를 위해 113,000개 이상의 대화형 궤적을 공개할 예정입니다.
텍스트와 이미지 이해를 결합한 멀티모달 AI 모델——비전-언어 모델(VLM)——이 새로운 범주의 보안 위협에 직면하고 있습니다. Jianhao Chen이 이끄는 연구팀이 MemJack를 발표했습니다. 이는 다수 에이전트의 협조적 협력을 활용하여 VLM의 보안 메커니즘을 우회하는 프레임워크로, 우려스러울 정도로 높은 성공률을 보여주고 있습니다.
MemJack는 어떻게 보안 방어를 우회합니까?
인간의 눈에는 보이지 않는 이미지의 미묘한 변화인 픽셀 섭동에 의존하는 기존 접근 방식과 달리, MemJack는 완전히 다른 전략을 사용합니다. 이 시스템은 이미지 콘텐츠의 의미론적 이해를 통해 시각적 요소를 유해한 목표에 매핑하고, 다시점 위장 기술을 사용하여 적대적 프롬프트를 생성합니다.
핵심 혁신은 다수의 전문화된 에이전트 간의 협조에 있습니다. 한 에이전트가 시각적 콘텐츠를 분석하고, 다른 에이전트가 위장 전략을 생성하며, 세 번째 에이전트가 모델의 보안 메커니즘을 우회하기 위해 기하학적 필터링을 적용합니다. 이 시스템은 컴퓨터 비전의 표준 데이터셋인 COCO 데이터셋의 완전히 수정되지 않은 이미지를 사용합니다——기존 방어가 픽셀 수준에서 어떤 조작도 감지할 수 없으므로 특히 위험합니다.
지속적 메모리가 핵심 구성 요소인 이유는 무엇입니까?
MemJack는 상호작용을 통해 성공적인 전략을 축적하는 지속적 메모리 구성 요소를 도입합니다. 공격이 성공할 때마다 시스템의 지식 베이스가 풍부해져 새 이미지에 대한 미래 공격이 더 효과적이 됩니다. 이 경험을 통한 학습 메커니즘은 시스템이 시간이 지남에 따라 점점 더 위험해짐을 의미합니다.
Qwen3-VL-Plus 모델 테스트에서 MemJack는 71.48%의 공격 성공률(ASR)을 달성합니다. 계산 예산을 확대——더 많은 반복 및 에이전트——하면 그 비율은 놀라운 90%까지 상승합니다. 이는 10장의 이미지 중 9장이 멀티모달 모델에 대한 공격 벡터로 활용될 수 있음을 의미합니다.
이것이 멀티모달 모델 산업에 의미하는 바는 무엇입니까?
결과는 VLM의 보안 아키텍처에서 근본적인 문제를 지적합니다. 기존의 방어는 주로 수정된 이미지 감지나 명시적으로 유해한 텍스트 프롬프트 필터링에 초점을 맞췄습니다. MemJack는 공격자가 완전히 합법적인 이미지와 정교하게 작성된 프롬프트를 사용하여 이러한 보호를 우회할 수 있음을 보여줍니다.
연구자들은 113,000개 이상의 대화형 멀티모달 공격 궤적을 포함하는 MemJack-Bench 데이터셋의 공개 릴리스를 발표했습니다. 목적은 방어 연구자들이 더 강력한 보호 메커니즘을 개발할 수 있게 하는 것입니다. 이것은 양날의 검입니다——방어에 도움이 되는 동일한 데이터가 공격자에게도 도움이 될 수 있지만, 연구팀은 투명성이 궁극적으로 방어 측에 이익이 된다고 생각합니다.
의료 이미지 분석부터 자율주행까지 프로덕션 시스템에서 VLM을 사용하는 기업들에게 MemJack는 경고를 보내고 있습니다: 보안 평가는 격리된 조작 시도뿐만 아니라 협조된 다중 에이전트 공격에 대한 내성 테스트를 포함해야 합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.