AgentTrust: AI 에이전트를 위한 런타임 안전 보호

AgentTrust는 AI 에이전트의 도구 호출(파일 작업, SQL 쿼리, 셸 명령)을 실행 전에 차단하고 네 가지 판정 중 하나를 반환하는 오픈소스 런타임 시스템입니다. 930개의 테스트 시나리오에서 95~97% 정확도를 달성했으며, 셸 난독화 공격에서는 약 93%의 정확도를 보였습니다.

arXiv에 발표된 새로운 논문은 AI 에이전트와 그 도구 사이에 위치하여 실행 전에 각 호출을 실시간으로 판단하는 런타임 보안 레이어 AgentTrust를 소개합니다. 이 시스템은 에이전트가 운영 체제와 외부 서비스에 대한 광범위한 접근권을 가질 때 나타나는 취약성을 겨냥합니다.

AgentTrust는 허용 여부를 어떻게 결정합니까?

각 수신 도구 호출에 대해 AgentTrust는 허용, 경고, 차단, 검토 전송의 네 가지 판정 중 하나를 반환합니다. 아키텍처는 셸 난독화 해제 정규화기, 더 안전한 대안을 제안하는 SafeFix 구성 요소, 다단계 공격 체인을 탐지하는 RiskChain 탐지기, 모호한 입력을 위한 캐시 인식 LLM 심판 레이어를 결합합니다. 지원 도구에는 파일 작업, SQL 쿼리, 셸 명령이 포함되며, 이는 프로덕션 에이전트 시스템에서 가장 일반적인 세 가지 공격 표면입니다.

시스템의 정확도는 어느 정도입니까?

평가는 총 930개 시나리오에서 수행되었습니다. 6개의 위험 범주에 걸친 300개의 내부 시나리오와 실세계에서 독립적으로 구성된 630개의 적대적 시나리오입니다. 프로덕션 규칙 세트는 내부 벤치마크에서 95.0% 판정 정확도, 73.7% 위험 등급 정확도를 달성했으며, 지연 시간은 몇 밀리초 범위입니다. 630개 시나리오 세트에서 AgentTrust는 96.7% 정확도에 도달했으며, 단순한 필터를 통상 우회하는 셸 난독화 페이로드에서는 약 93% 정확도를 보였습니다.

오픈소스 제공은 무엇을 의미합니까?

저자(Chenglin Yang)는 AgentTrust를 AGPL-3.0 라이선스로 공개했으며, 이는 파생 저작물에 동일한 오픈소스 공유를 의무화합니다. 시스템은 MCP 서버(Model Context Protocol — LLM에서 외부 도구를 호출하는 개방형 표준)로 제공되어 에이전트 코드를 수정하지 않고도 MCP를 지원하는 모든 에이전트에 연결할 수 있습니다. 이로써 기존 에이전트 워크플로에 런타임 제어를 도입하는 진입 장벽이 낮아집니다.

자주 묻는 질문

AgentTrust는 무엇을 차단합니까?

시스템은 AI 에이전트의 도구 호출(구체적으로 파일 작업, SQL 쿼리, 셸 명령)을 실행 전에 차단하고 실시간으로 허용 또는 중지를 결정합니다.

AgentTrust가 반환하는 판정은 무엇입니까?

네 가지 가능한 판정: 허용(allow), 경고(warn), 차단(block), 인간 검토 전송(review)입니다. 또한 더 안전한 대안을 제안하는 SafeFix 구성 요소도 있습니다.

어떤 라이선스로 제공됩니까?

시스템은 AGPL-3.0 오픈소스 라이선스로 공개되며 MCP 서버로 제공되어 Model Context Protocol을 지원하는 모든 에이전트와 호환됩니다.

arXiv:2605.04785: AgentTrust가 AI 에이전트의 도구 호출을 95~97% 정확도로 차단

AgentTrust는 허용 여부를 어떻게 결정합니까?

시스템의 정확도는 어느 정도입니까?

오픈소스 제공은 무엇을 의미합니까?

자주 묻는 질문

출처

관련 뉴스