arXiv:2605.28914 AIRGuard: 에이전트 공격 36.3%→5.5%

AIRGuard는 도구 장착 언어 에이전트를 위한 런타임 보안 레이어로, 허가되지 않은 컨텍스트 입력이 에이전트의 합법적인 행동(파일 접근, API 호출)을 공격에 악용하는 권한 혼동 취약점을 해결합니다. AgentTrap 벤치마크에서 AIRGuard는 Claude Sonnet 4.6에 대한 공격 성공률을 36.3%에서 5.5%로 낮추는 동시에 DTAP-150 벤치마크에서 유용성의 76%를 유지합니다.

Suliu Qin, Haomin Zhuang, Yujun Zhou, Yufei Han, Xiangliang Zhang 연구자들이 AIRGuard를 발표했습니다.

권한 혼동이란 무엇이며 프롬프트 인젝션 공격이 통하는 이유

권한 혼동은 에이전트의 합법적인 행동을 비합법적인 방식으로 악용합니다. 공격자는 에이전트가 읽는 콘텐츠에 명령을 삽입합니다. 공격자의 명령을 사용자 명령과 구분하는 메커니즘이 없습니다.

AIRGuard는 런타임 권한 제어를 어떻게 구현하나요?

AIRGuard는 6단계 런타임 보안 레이어를 구현합니다:

도구 호출 정규화
권한 변환(작업 수준 → 단계 수준)
출처 및 목적지 신뢰도 추적
민감한 작업 시뮬레이션
위험 검토
실행 전 적용

벤치마크 결과

AgentTrap: 보호 없는 Claude Sonnet 4.6 36.3% → AIRGuard 적용 5.5% DTAP-150: AIRGuard 76.0% vs ARGUS 52.0% vs MELON 42.0%

AI 에이전트에서 AIRGuard의 의미

AIRGuard는 모델에 독립적인 방어 레이어를 제공합니다. 코드와 데이터셋은 GitHub에서 공개적으로 이용 가능합니다.

자주 묻는 질문

권한 혼동이란 무엇이며 프롬프트 인젝션 공격은 왜 통하나요?

권한 혼동은 에이전트의 합법적인 행동을 비합법적인 방식으로 악용합니다. 공격자가 에이전트가 읽는 콘텐츠에 명령을 삽입하는데, 기존 시스템은 공격자의 명령과 사용자의 명령을 구분하는 메커니즘이 없습니다.

AIRGuard의 런타임 제어는 다른 방어 방법보다 얼마나 효과적인가요?

AgentTrap에서 공격 성공률을 36.3%에서 5.5%로 낮추며, DTAP-150 유용성은 ARGUS(52%)나 MELON(42%)보다 높은 76%를 유지합니다.

arXiv:2605.28914: AIRGuard, 런타임 권한 제어로 프롬프트 인젝션 공격 성공률 36.3%→5.5% 감소

권한 혼동이란 무엇이며 프롬프트 인젝션 공격이 통하는 이유

AIRGuard는 런타임 권한 제어를 어떻게 구현하나요?

벤치마크 결과

AI 에이전트에서 AIRGuard의 의미

자주 묻는 질문

출처

관련 뉴스