arXiv:2605.25707: AgentHijack 벤치마크, 컴퓨터 사용 AI 에이전트의 심각한 취약성 발견
연구자들이 ICML 2026에서 AgentHijack을 발표했습니다. 이는 팝업 창과 같은 현실적인 환경 방해 요소에 대한 컴퓨터 사용 멀티모달 LLM 에이전트의 견고성을 측정하는 벤치마크입니다. 결과에 따르면 사소한 방해만으로도 성능이 크게 저하되며, 저자들은 견고성 향상을 위한 두 가지 모듈로 구성된 AgentHijack-Agent 프레임워크를 제안합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
AgentHijack이란 무엇이며, AI 에이전트에 왜 중요한가?
연구자 Jingwei Sun, Jianing Zhu, Yuanyi Li, Tongliang Liu, Xia Hu, Bo Han이 AgentHijack을 발표했습니다. 이는 ICML 2026에서 채택된 새로운 벤치마크로, 데스크톱 작업 수행 중 현실적인 방해 요소에 대한 멀티모달 LLM 에이전트의 견고성을 체계적으로 측정합니다. 컴퓨터 사용 에이전트는 시각적 인식으로 화면을 모니터링하고 마우스와 키보드를 자율적으로 제어하는 LLM 시스템입니다.
기존 연구가 주로 의도적인 적대적 공격을 다루었다면, AgentHijack은 사용자가 일상적으로 마주치는 실질적인 방해 요소에 초점을 맞춥니다. 팝업 알림, 화면 표시 변경 등 의도적인 악의적 행동이 아닌 일반적인 상황에서 발생하는 방해 요소들입니다.
AgentHijack이 테스트하는 방해 유형은?
AgentHijack 벤치마크는 실제 데스크톱 사용 환경을 재현하는 9가지 설정 가능한 방해 범주를 포함합니다:
- 팝업 창 (알림 팝업, 대화상자, 광고) — 작업 흐름을 끊는 요소
- 화면 표시 변경 (해상도, 확대/축소, 인터페이스 요소 크기 조정)
- 에이전트의 시각적 인식과 제어 정확도에 영향을 미치는 기타 방해 요소
논문의 핵심 발견은 명확합니다: 『사소한 손상이 발생해도 상당한 성능 저하로 이어질 수 있다』. 이는 Claude Computer Use, GPT-4o 등 현재의 멀티모달 LLM 에이전트들이 구조적으로 취약하다는 것을 보여줍니다.
AgentHijack-Agent는 견고성 문제를 어떻게 해결하나요?
저자들은 문제를 식별하는 데 그치지 않고 견고성 향상을 위한 두 가지 구성 요소를 갖춘 AgentHijack-Agent 프레임워크도 제안했습니다:
- 액션 생성기 — 강화된 그라운딩 정확도를 통해 시각적 요소를 의미론적 액션에 더 정확하게 매핑
- 온루커 모듈 — 에이전트의 행동을 지속적으로 모니터링하고 환경 상태를 검증하여 방해 요소로 인한 이상 징후 감지
실험적 테스트를 통해 제안된 프레임워크의 효과가 확인되었습니다. 코드, 환경, 베이스라인 모델, 데이터셋은 프로젝트 페이지를 통해 공개되어 재현성과 후속 연구가 용이합니다.
AgentHijack은 Anthropic, OpenAI, Google DeepMind가 컴퓨터 사용 에이전트를 집중적으로 개발하는 시점에 나왔습니다. 실제 환경 방해에 대한 견고성은 프로덕션 환경에서의 신뢰할 수 있는 배포를 위한 핵심 조건입니다.
자주 묻는 질문
- AgentHijack 벤치마크는 무엇을 측정하나요?
- AgentHijack은 데스크톱 작업 수행 시 팝업 창, 화면 표시 변경 등 9가지 설정 가능한 환경 방해 유형에 대한 멀티모달 LLM 에이전트의 견고성을 측정합니다.
- 컴퓨터 사용 AI 에이전트는 왜 취약한가요?
- 멀티모달 LLM 에이전트는 화면의 시각적 인식과 정밀한 상호작용 제어에 의존하기 때문에, 팝업 창이나 인터페이스 변경과 같은 사소한 환경 변화만으로도 작동이 방해받습니다.
- AgentHijack-Agent란 무엇이며, 어떻게 견고성을 향상시키나요?
- AgentHijack-Agent는 그라운딩 정확도를 개선하는 액션 생성기와 에이전트 행동을 모니터링하고 환경을 검증하는 온루커(onlooker) 모듈로 구성된 제안 프레임워크입니다.