ArXiv ACIArena: AI 에이전트 체인에 대한 프롬프트 인젝션 공격의 첫 벤치마크

새로운 유형의 프롬프트 인젝션 공격

멀티 에이전트 시스템(LangGraph, AutoGen, CrewAI, OpenAI Swarm)은 여러 AI 에이전트의 조정이 필요한 작업에 점점 더 인기를 얻고 있습니다. 그러나 다른 에이전트와 통신하는 각 에이전트는 새로운 공격 표면을 나타내며, 4월 10일 발표된 새 논문에 따르면 이 표면은 위험할 정도로 연구가 부족합니다.

An이 이끄는 팀은 ACIArena를 소개합니다. 이는 **에이전트 캐스케이딩 인젝션(ACI)**에 대한 첫 체계적 벤치마크입니다. 이는 다음과 같은 공격 계열입니다:

공격자가 시스템의 한 구성 요소에 악의적인 프롬프트를 주입합니다 (예: 첫 번째 에이전트가 읽는 문서)
첫 번째 에이전트는 입력을 처리하고 “처리된” 결과를 다음 에이전트에게 전달합니다
악의적인 콘텐츠가 합법적인 시스템 내부 통신으로 “제시”됩니다
후속 에이전트는 손상된 데이터를 신뢰할 수 있는 것으로 취급합니다
누군가가 위험한 작업을 수행할 때까지 체인이 계속됩니다

벤치마크에 포함된 것

ACIArena는 6개의 멀티 에이전트 구현에 걸쳐 1,356개의 테스트 케이스를 다룹니다. 테스트 케이스는 다음을 다룹니다:

다양한 입력 벡터 (문서, 웹페이지, API 응답)
다양한 에이전트 토폴로지 (순차, 병렬, 계층)
다양한 최종 작업 유형 (파일 읽기, 코드 작성, 이메일 전송, 셸 명령 실행)

왜 이것이 중요한가

현재 대부분의 보안 연구는 단일 에이전트 시나리오에 초점을 맞춥니다. 사용자가 하나의 모델과 직접 대화하는 경우입니다. 그러나 실제 프로덕션 배포는 한 에이전트가 다른 에이전트의 결과를 신뢰하는 에이전트 체인에 점점 더 의존하고 있습니다. ACIArena는 이 “에이전트 간 신뢰”가 얼마나 약한지를 공식적으로 측정합니다.

이미 LangGraph와 AutoGen을 사용하는 개발 팀에게 이 벤치마크는 프로덕션 배포 전의 필수 보안 평가 요소가 되어야 합니다. 지금까지 벤치마크가 없다는 것은 공격이 사고 후에만 발견되었음을 의미했습니다.

ArXiv ACIArena: AI 에이전트 체인에 대한 프롬프트 인젝션 공격의 첫 벤치마크

새로운 유형의 프롬프트 인젝션 공격

벤치마크에 포함된 것

왜 이것이 중요한가

출처

관련 뉴스