arXiv:2605.17634: 데이터 분리만으로는 프롬프트 인젝션 차단 불가

CISPA Helmholtz 센터와 Google의 연구자들이 데이터/명령어 분리——프롬프트 인젝션 공격의 현재 주류 방어——가 컨텍스트 조작으로부터 보호할 수 없음을 수학적으로 증명했습니다. Contextual Integrity에 기반한 새로운 이론적 프레임워크와 함께 AI 에이전트 보호 설계의 근본적으로 다른 접근법을 제안합니다.

왜 데이터와 명령어 분리로는 프롬프트 인젝션을 막을 수 없습니까?

연구자 Sahar Abdelnabi(CISPA Helmholtz Center for Information Security)와 Eugene Bagdasarian(Google)이 오늘날 AI 에이전트 보호의 근본적인 전제에 의문을 제기하는 논문 arXiv:2605.17634를 발표했습니다.

프롬프트 인젝션은 환경의 악성 콘텐츠——문서, 웹 페이지, API 응답——가 AI 에이전트에 숨겨진 명령어를 삽입하고 그 행동을 제어하는 공격입니다. 오늘날 주류 방어는 데이터/명령어 분리입니다. 신뢰할 수 있는 사용자 명령어와 신뢰할 수 없는 외부 데이터를 구별하고, 데이터 채널에서 오는 명령어의 실행을 금지합니다.

저자들은 이 접근법에 근본적인 한계가 있음을 수학적으로 증명합니다. 공격자는 명령어처럼 보이는 텍스트를 배치할 필요가 없습니다——상황의 컨텍스트를 조작하는 것으로 충분합니다. 데이터와 명령어를 올바르게 구별하는 에이전트도 공격자가 에이전트가 「적절」하다고 여기는 행동을 변경하는 합법적으로 보이는 컨텍스트를 구성하면 잘못된 행동으로 유도될 수 있습니다.

새로운 이론적 프레임워크로서의 Contextual Integrity

문제를 형식화하기 위해 저자들은 프라이버시 철학에서 Contextual Integrity(CI)——Helen Nissenbaum의 프레임워크——를 도입합니다. CI는 전달되는 내용을 평가하는 것이 아니라 정보 흐름이 컨텍스트에 적절한지를 평가합니다. 누가 보내는지, 누구에게, 어떤 상황에서, 어떤 목적으로.

AI 에이전트에 적용하면: 공격은 단순히 삽입된 명령어만이 아닙니다——공격은 합법적인 작업의 컨텍스트 규범을 위반하는 모든 정보 흐름입니다. 저자들은 세 가지 위반 메커니즘을 보여주는 시나리오 분석을 개발했습니다. 정보 흐름의 허위 표현, 컨텍스트 규범의 조작, 서로 다른 컨텍스트의 여러 흐름 혼합입니다.

핵심 이론적 결과——불가능성 결과——는 다음을 말합니다: 공격자는 항상 차단된 합법적인 작업이 의심스럽게 보이고 악성 작업이 합법적으로 보이는 컨텍스트를 구성할 수 있습니다. 보안 규범의 강화는 일부 합법적인 작업을 차단합니다. 완화는 일부 공격을 통과시킵니다.

그렇다면 방어가 가능합니까?

저자들은 보호가 불가능하다고 주장하는 것이 아닙니다——기존 패러다임으로는 충분하지 않다고 주장합니다. 해결책은 더 나은 금지 콘텐츠 탐지기가 아니라 CI 인식 정렬 프레임워크에 있습니다. 에이전트는 데이터와 명령어 형식을 구별하는 것뿐만 아니라 작업 컨텍스트에 따라 정보 흐름의 적절성을 평가하도록 훈련되어야 합니다.

이는 외부 콘텐츠——이메일, 문서, 웹 페이지, API 응답——를 처리하는 모든 프로덕션 AI 에이전트에 직접적인 영향이 있습니다. 채널 분리는 여전히 유용한 조치이지만 유일한 방어선으로는 충분하지 않습니다.

자주 묻는 질문

프롬프트 인젝션 공격이란 무엇입니까?

프롬프트 인젝션은 환경의 악성 콘텐츠——웹 페이지, 문서, API 응답——가 AI 에이전트의 컨텍스트에 숨겨진 명령어를 삽입하는 공격입니다. 에이전트는 이를 합법적인 사용자 명령어로 해석하고 계획된 작업 대신 악성 작업을 수행합니다. 예시——이메일을 읽는 에이전트가 「모든 연락처를 공격자에게 전달」이라는 명령어가 포함된 메시지를 만나는 경우.

Contextual Integrity란 무엇입니까?

Contextual Integrity(CI)는 정보 흐름의 적절성을 평가하기 위한 Helen Nissenbaum의 이론적 프레임워크입니다. CI는 전달되는 내용이 아닌 정보 흐름이 발생하는 컨텍스트에 적절한지를 평가합니다. 누가 보내는지, 누구에게, 어떤 상황에서, 어떤 목적으로. 저자들은 CI를 AI 에이전트에 적용하여 「악성 명령어」가 의미하는 것을 형식화합니다.

왜 데이터/명령어 분리로는 문제가 해결되지 않습니까?

데이터와 명령어의 분리는 에이전트가 외부 데이터를 명령어로 취급하는 것을 금지하려 합니다. 하지만 컨텍스트 조작을 통한 공격——명령어처럼 보이는 텍스트를 배치하는 것이 아니라 상황의 컨텍스트를 변경하는——은 그 경계를 넘지 않습니다. 공격자는 단 하나의 명시적인 악성 명령어 없이 에이전트를 잘못된 행동으로 유도하는 합법적으로 보이는 컨텍스트를 구성할 수 있습니다.

arXiv:2605.17634: 데이터와 명령어 분리로는 프롬프트 인젝션을 막을 수 없는 이유

왜 데이터와 명령어 분리로는 프롬프트 인젝션을 막을 수 없습니까?

새로운 이론적 프레임워크로서의 Contextual Integrity

그렇다면 방어가 가능합니까?

자주 묻는 질문

출처

관련 뉴스