🟡 🛡️ 보안 게시일: · 4 분 읽기 ·

MARS: 추가 훈련 없이 텍스트 거부 방향으로 멀티모달 AI 모델 보호

에디토리얼 일러스트레이션: 재훈련 없이 AI 모델의 멀티모달 거부 제어 연구

트렌토 대학교 연구진이 MARS를 제안합니다 — 추가 훈련 없이 텍스트 LLM에서 거부 방향을 가져와 이미지 및 비디오 입력에 적용하는 멀티모달 보안 접근법. 5개의 최신 멀티모달 모델에서 일관된 보안 개선과 유용성 유지로 테스트되었습니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

텍스트, 이미지, 비디오를 동시에 처리하는 멀티모달 대형 언어 모델은 보안 연구자들에게 새로운 도전을 가져다 줍니다: 텍스트 데이터로 훈련된 보안 메커니즘이 시각적 모달리티에 자동으로 전이되지 않습니다. 텍스트 쿼리로 유해한 응답을 끌어낼 수 없는 공격자가 때로는 신중하게 구성된 이미지나 비디오 시퀀스로 이를 달성할 수 있습니다.

트렌토 대학교 컴퓨터 과학과 연구팀 — D’Incà, Mancini 및 Sebe — 은 어떠한 추가 훈련 단계 없이 그 격차를 해소하는 새로운 접근법을 제안합니다.

MARS란 무엇입니까?

MARS(모달리티 불가지론적 거부 조향)는 간단하지만 강력한 가정에서 출발합니다: LLM이 유해한 텍스트 요청을 거부하는 메커니즘은 단순히 입력 레이어에 있는 것이 아니라 — 모델의 활성화 공간 깊숙이 있습니다. 이 거부 방향은 식별될 수 있고, MARS가 보여주는 것처럼, 모달리티 간에 일반화될 수 있는 기하학적 구조입니다.

구체적으로: 순수하게 텍스트 부분의 모델에서 추출된 거부 방향이 이미지나 비디오 처리로 발생한 활성화에 적용될 수 있습니다. 멀티모달 모델은 거부가 무엇을 의미하는지에 대한 지식을 포함합니다 — MARS는 그 구조를 원래 활성 보안 메커니즘으로 존재하지 않는 모달리티에서도 활성화합니다.

MARS를 견고하게 만드는 세 가지 메커니즘

접근법은 거부 결정이 이루어지는 단계인 응답의 첫 번째 토큰 생성 시 함께 작동하는 세 가지 구성 요소에 의존합니다:

활성화 재중심화는 모델이 유해한 요청을 자연스럽게 거부하는 영역으로 활성화 공간을 이동시킵니다. 시각적 입력으로 발생한 활성화는 텍스트 모델이 유해한 콘텐츠를 인식하는 동일한 기하학적 영역으로 향합니다.

적응적 개입 스케일링은 입력이 안전한 패턴에서 얼마나 멀리 있는지에 따라 교정 강도를 동적으로 조정합니다. 이는 양성 쿼리에 대한 부수적 효과를 줄입니다 — 모든 거부를 일괄적으로 강화함으로써 모델 유용성이 저하되지 않습니다.

최적 레이어 선택은 첫 번째 토큰 생성 시 어떤 트랜스포머 레이어가 거부 결정에 가장 큰 영향을 미치는지 식별하고 정확히 그곳에 개입을 적용합니다. 이는 모든 레이어에 적용하는 것보다 효율적이며 네트워크의 나머지 부분과 원치 않는 상호작용을 줄입니다.

핵심 장점: 멀티모달 보안 데이터 없이

기존 멀티모달 보안 접근법은 유해한 시각적 입력을 적절한 응답과 짝지은 데이터셋을 요구합니다 — 수집하기 비용이 많이 들고 어려우며, 파인튜닝 절차가 표준 작업에서 모델 유용성을 저하시킬 수 있습니다.

MARS는 그러한 데이터가 필요 없습니다. 모델에 이미 존재하는 텍스트 거부 구조만 사용합니다. 이를 통해 공통 LLM 백본을 공유하는 모든 멀티모달 모델에 적용 가능합니다 — 재훈련 없이, GPU 클러스터 없이, 특화된 보안 데이터셋 없이.

5개의 최신 멀티모달 모델에서 테스트

연구진은 이미지와 비디오를 처리하는 5개의 최신 SOTA 멀티모달 모델에서 평가를 수행했습니다. 결과는 일관된 보안 이점을 보여줍니다: MARS가 활성화된 모델은 그렇지 않으면 텍스트 보호를 우회하는 시각적 공격에서 유해한 콘텐츠를 생성하는 빈도가 줄었습니다.

프로덕션 환경에서 중요한 조건 — 보안 개입이 응답 품질을 저하시키지 않는 것 — 이 충족됩니다: 양성 작업에서의 유용성이 유지됩니다. 품질에 부정적으로 영향을 미치는 보안 개입은 실제로 수용되지 않을 것입니다.

저자들은 MARS가 견고한 보안 훈련의 대안이 아님을 강조합니다 — 이는 비용이나 중단 없이 이미 배포된 모델을 빠르게 개선할 수 있는 경량 레이어입니다. 원래 보안 훈련과의 결합은 이론적으로 더 나은 결과를 제공해야 합니다.

더 넓은 맥락: 모달리티 보안이 시급한 이유

멀티모달 모델에 대한 시각적 공격은 증가하는 위협 범주입니다: 적대적 이미지, 사진에 포함된 텍스트, 보안 필터를 혼란시키도록 설계된 비디오 시퀀스. 멀티모달 모델이 프로덕션 시스템 — 이미지 업로드 기능이 있는 챗봇부터 시각적 콘텐츠 리뷰를 위한 자동화된 시스템까지 — 에 배포됨에 따라, 시각적 모달리티에 특정한 취약성이 점점 더 관련성이 높아지고 있습니다.

훈련이 필요 없는 MARS 접근법은 조직이 파인튜닝을 위한 리소스가 없거나 모델이 훈련에 사용할 수 없는(API 전용 배포) 시나리오에서 특히 가치가 있습니다. 완성된 모델에 적용 가능한 경량성이 파라미터에 대한 완전한 접근을 가정하는 대부분의 이전 접근법과 구별됩니다.

이 연구는 더 넓은 연구 질문도 열어줍니다: LLM의 보안 지식은 얼마나 모듈식입니까? 거부 방향이 모달리티 간에 성공적으로 전이될 수 있다면, 동일한 원리가 작업, 도메인 또는 관련 모델 아키텍처 간에도 유효할 수 있습니다.

자주 묻는 질문

거부 방향이란 무엇이며 멀티모달 보안에 왜 중요합니까?
거부 방향은 모델이 유해한 요청을 거부하는 메커니즘을 나타내는 LLM 활성화 공간의 기하학적 벡터입니다. MARS는 텍스트 모델에서 이를 추출하여 별도의 보안 데이터 없이 시각적 모달리티에 적용합니다.
MARS가 추가 훈련을 요구하지 않는 것이 왜 중요합니까?
훈련 없는 접근법은 비용이 많이 드는 데이터셋이나 GPU 리소스 없이 이미 배포된 모델에 즉시 적용할 수 있어 프로덕션 사용과 API 전용 시나리오에 실용적입니다.
MARS는 몇 개의 모델에서 테스트되었습니까?
MARS는 5개의 최신 멀티모달 모델에서 일관된 보안 개선과 양성 작업에서의 유용성 저하 없이 테스트되었습니다.