🔴 🛡️ 보안 게시일: · 2 분 읽기 ·

Google DeepMind: AI 에이전트 보안 사고의 50% 이상은 공격이 아닌 오류가 원인

편집 일러스트: AI 에이전트 보안 사고의 50% 이상은 공격이 아닌 오류가 원인

Google DeepMind는 100만 개의 에이전트 코딩 궤적을 분석하여 AI 에이전트 보안 사고로 표시된 것의 50% 이상이 외부 적대적 공격이 아닌 작업 오해 또는 모델의 과도한 적극성에서 비롯됨을 발견했습니다. 이 발견은 방어 우선순위를 바꿉니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Google DeepMind는 100만 개의 에이전트 코딩 궤적——자율 모델이 프로그래밍 작업을 해결할 때 취하는 기록된 행동 시퀀스——에 대한 검토를 바탕으로 AI 에이전트의 보안 과제에 대한 포괄적인 분석을 발표했습니다. 업계의 기존 가정을 바꾸는 발견: 표시된 보안 사고의 50% 이상이 외부 적대적 공격의 결과가 아니라 에이전트 자체의 작업 오해 또는 과도한 적극성에서 비롯됩니다.

AI 에이전트의 심층 방어는 어떻게 작동하는가

심층 방어——여러 개의 독립적인 보호 레이어를 결합하는 보안 전략——에 대한 DeepMind의 에이전트 구현은 세 가지 수준을 포함합니다. 첫 번째 레이어는 전통적인 샌드박싱: 에이전트의 실행 환경을 격리하여 지정된 범위 밖에서의 무단 행동을 방지합니다. 두 번째 레이어는 MITRE ATT&CK 위협 모델링——보안 커뮤니티가 인간 해커의 공격 기술을 분류하는 데 사용하는 표준화된 프레임워크를, 특권 접근 권한을 가진 「내부 위협」으로 취급되는 AI 에이전트에 적용한 것입니다. 세 번째 레이어는 감독 AI(supervisor): 기본 에이전트의 행동을 실시간으로 모니터링하고 이상을 감지하는 전용 모델입니다.

Gemini Spark 실시간 모니터와 핵심 지표

DeepMind는 코딩 작업용 프로덕션 에이전트인 Gemini Spark 전용 실시간 모니터링 시스템을 구축했습니다. 이 시스템은 세 가지 핵심 지표를 측정합니다. 커버리지(위협 시나리오 적용 범위), 리콜(실제 사고의 감지율), 응답 시간(감지된 사고에 대한 반응 속도)입니다. 이 지표의 구체적인 수치는 공개되지 않았지만, 방법론은 다른 팀이 적용할 수 있는 참조 프레임워크로 공개되었습니다.

안전한 에이전트 개발에 대한 의미

오류가 공격을 앞선다는 발견은 시스템 설계에 실질적인 영향을 미칩니다. 주로 외부 행위자 방어에 리소스를 투자하는 대신, 개발팀은 사용자 의도의 강력한 해석에이전트가 자신의 권한 범위를 인식하는 메커니즘을 우선시해야 합니다. DeepMind는 에이전트가 외부 공격자가 아닌 특권 접근 권한을 가진 내부 사용자와 유사한 위험 프로파일을 갖는다고 강조합니다——이는 기존의 경계 보안 모델이 사고의 실제 원인을 충분히 해결하지 못함을 의미합니다. 이 접근 방식은 모델 자율성이 높아지고 에이전트에 위임되는 작업이 복잡해짐에 따라 확장 가능하도록 설계되었습니다.

기술적 배경

100만 개의 궤적 분석을 통해 소규모 샘플로는 얻을 수 없는 통계적 결론이 가능해졌습니다. 「에이전트 오해」(지시 사항의 잘못된 해석)와 「에이전트 과잉 적극성」(실행에서의 과도한 열의)의 차이는 충분히 큰 데이터셋에서만 뚜렷하게 나타납니다. 적대적 공격(전체 표시의 50% 미만)과의 비교는 현재 업계가 사고의 내부 원인을 과소평가하고 있음을 나타냅니다.

자주 묻는 질문

MITRE ATT&CK란 무엇이며 DeepMind는 왜 에이전트에 이를 사용합니까?
MITRE ATT&CK는 보안 커뮤니티가 위협을 체계적으로 기술하기 위해 사용하는 공격 기술 및 전술의 표준화 프레임워크입니다. DeepMind는 이를 AI 에이전트에 적용하여 잠재적 공격 벡터를 구조적으로 매핑하고 확립된 방법론으로 방어를 구축합니다.
DeepMind 모니터링 시스템의 세 가지 핵심 지표는 무엇입니까?
시스템은 커버리지(coverage——모니터링되는 사고 시나리오의 비율), 리콜(recall——시스템이 실제 사고를 감지하는 비율), 응답 시간(time-to-response——감지된 사고에 대한 시스템의 반응 속도)을 측정합니다.