WindowsWorld: GUI 에이전트 멀티앱 성공률 21% 미만의 현실

WindowsWorld는 16개 직종을 기반으로 17개 데스크톱 애플리케이션에서 평균 5.0개의 서브 목표를 가진 181개 작업을 테스트하는 새로운 자율 GUI 에이전트 벤치마크입니다. 주요 컴퓨터 조작(computer-use) 에이전트들은 애플리케이션 경계를 넘나드는 작업에서 성공률 21% 미만을 기록하며, OSWorld와 같은 단일 앱 격리 테스트와 실제 다중 앱 조건 추론 전문 업무 사이의 큰 격차를 드러냈습니다.

하얼빈 공업기술대학 연구팀(Jinchao Li, Yunxin Li, Chenrui Zhao, Zhenran Xu, Baotian Hu, Min Zhang)은 2026년 4월 30일 ArXiv에 자율 GUI 에이전트를 위한 새로운 벤치마크를 발표했습니다. WindowsWorld는 단일 앱 내 격리 작업에서 여러 프로그램 경계를 넘나드는 실제 전문 업무로 초점을 이동시키며, 주요 컴퓨터 조작 에이전트들이 이러한 작업에서 성공률 21% 미만임을 밝혔습니다.

WindowsWorld는 OSWorld와 무엇을 다르게 측정하는가?

OSWorld와 관련 벤치마크는 주로 단일 애플리케이션 내에서 에이전트를 평가합니다. 즉, 브라우저 열기, 더블 클릭, 양식 작성 등입니다. WindowsWorld는 명시적으로 다중 앱 워크플로우를 다룹니다 — 예를 들어 Excel 스프레드시트에서 데이터를 추출하고, 이메일 클라이언트에서 이메일 초안을 작성하며, 프레젠테이션 도구에서 결과물을 포함한 발표 자료를 만드는 것을 하나의 작업으로 처리합니다. 총 181개 작업의 78%는 본질적으로 다중 애플리케이션 작업이며, 평균 작업은 17개의 서로 다른 데스크톱 애플리케이션에 걸쳐 5.0개의 서브 목표를 갖습니다. 작업은 16개 직업 역할이 이끄는 다중 에이전트 프레임워크를 통해 생성되었으며, 이후 인간 검토를 거쳐 시뮬레이션 환경에서 실행됩니다.

작업이 세 개의 앱을 넘어가면 에이전트는 왜 실패하는가?

저자들의 주요 실험적 발견은 벤치마크 간에 일관적입니다. 주요 에이전트들은 단일 앱 작업에서는 잘 수행하지만, 다중 앱 워크플로우에서는 성공률이 21% 미만으로 떨어집니다. 구체적인 문제는 세 개 이상의 애플리케이션 간 조건부 추론(conditional judgment)입니다 — 에이전트는 초기 서브 목표에서 멈추거나 동일한 단계를 반복합니다. 또 다른 문제는 낮은 실행 효율성입니다. 에이전트는 인간의 단계 수 한도를 초과하면서도 작업을 완료하지 못합니다. 즉, 문제는 단계 수만이 아니라 프로그램 간 컨텍스트 전환을 통해 상태를 유지하는 능력에 있습니다.

사무 업무에서의 에이전트 활용에 대한 시사점

컴퓨터 조작 에이전트는 가장 빠르게 성장하는 AI 제품 중 하나입니다 — Anthropic, OpenAI, Google DeepMind 모두 에이전트를 일상적인 사무 업무의 대체재로 적극 홍보하고 있습니다. WindowsWorld는 현 세대 에이전트가 실제 일상적인 전문 업무에 전형적인 다중 앱 작업을 안정적으로 수행하기에는 아직 멀었음을 시사합니다. 이 벤치마크는 SWE-bench가 코딩 에이전트의 방향성을 정의했듯이, 차세대 에이전트의 현실적인 발전 지표가 될 것입니다.

자주 묻는 질문

WindowsWorld는 몇 개의 작업과 애플리케이션을 다룹니까?

벤치마크에는 17개의 일반적인 데스크톱 애플리케이션에 걸쳐 작업당 평균 5.0개의 서브 목표를 가진 181개 작업이 포함되어 있습니다. 작업의 78%는 본질적으로 다중 애플리케이션 작업입니다.

최고 성능의 GUI 에이전트 성공률은 어느 정도입니까?

테스트된 모든 주요 컴퓨터 조작 에이전트는 다중 앱 작업에서 성공률 21% 미만을 기록했습니다 — 단일 앱 격리 테스트보다 급격히 낮은 수치입니다.

WindowsWorld는 OSWorld와 어떻게 다릅니까?

OSWorld와 유사한 벤치마크는 주로 단일 앱 내의 격리된 작업을 측정하지만, WindowsWorld는 전문적인 업무에 전형적인 조건 분기를 포함한 크로스 애플리케이션 워크플로우에 명시적으로 초점을 맞추고 있습니다.

WindowsWorld 벤치마크: 주요 컴퓨터 조작 에이전트, 다중 데스크톱 앱 작업에서 성공률 21% 미만

WindowsWorld는 OSWorld와 무엇을 다르게 측정하는가?

작업이 세 개의 앱을 넘어가면 에이전트는 왜 실패하는가?

사무 업무에서의 에이전트 활용에 대한 시사점

자주 묻는 질문

출처

관련 뉴스