ArXiv Odysseys：SOTA 웹 에이전트 44.5% / 1.15% 효율

CMU 연구원 Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov는 2026년 4월 27일 ArXiv 프리프린트 Odysseys를 발표했습니다. 이는 라이브 인터넷의 실제 브라우징 세션에서 나온 200개의 장기 웹 작업 벤치마크입니다. 루브릭 기반 평가（작업당 평균 6.1개의 루브릭）는 가장 강력한 프런티어 모델이 44.5% 성공률과 1.15% 궤적 효율만 달성함을 보여주며, 현재 웹 에이전트의 거대한 결함을 드러냅니다.

카네기 멜론 대학교 팀（Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov）은 2026년 4월 27일 프리프린트 **「Odysseys：현실적인 장기 작업에서 웹 에이전트 벤치마킹」**을 발표했습니다. 현재 웹 에이전트가 실제 응용에서 얼마나 멀리 떨어져 있는지를 보여주는 새 벤치마크입니다.

기존 벤치마크의 문제

추상 인용：

「기존 웹 에이전트 벤치마크는 프런티어 모델이 포화에 근접하고 있는 짧은 단일 사이트 작업으로 대체로 수렴했습니다.」

다시 말해：WebArena, Mind2Web 등의 벤치마크는 「포화」되어 가고 있습니다 — 프런티어 모델이 이것들에서 높은 정확도를 달성하여 문제가 해결된 것 같은 인상을 줍니다. 실제 웹 애플리케이션은 다릅니다：

동시에 여러 페이지와 여러 웹 사이트
세션이 10분 이상 지속
페이지가 실시간으로 변화（쿠키, 팝업, A/B 테스트）
목표가 단의적이지 않음

Odysseys — 무엇이 새로운가?

벤치마크는 라이브 인터넷에서 테스트된 실제 브라우징 세션에서 나온 200개의 장기 웹 작업으로 구성됩니다. 각 작업은 이진 통과/실패가 아닌 평가를 위해 평균 6.1개의 루브릭을 가집니다.

루브릭 기반 접근법은 두 가지 이점을 가져옵니다：

더 세밀한 인사이트 — 에이전트가 작업의 어느 부분을 해결하고 어느 부분을 해결하지 못하는지
인간 판단과의 일치 향상 — 저자들은 루브릭 평가가 「궤적 수준의 LLM 평가와 비교하여 인간 판단과의 일치가 향상되었다」고 언급합니다

결과：고통스러운 격차

「테스트된 가장 강력한 프런티어 모델」에 대한 두 가지 핵심 지표：

성공률：44.5% — 절반 미만의 작업이 성공
궤적 효율：1.15% — 단계당 루브릭 점수

두 번째 수치가 특히 우려됩니다. 낮은 궤적 효율은 에이전트가 해결에 기여하지 않는 많은 동작을 수행함을 의미합니다 — 목적 없이 페이지를 브라우징하고, 잘못된 링크를 클릭하고, 결국 성공할 수 있지만 체계적인 계획이 아닌 무차별 대입을 통해서입니다.

테스트된 모델

추상에서는 「여러 주요 프런티어 모델」이라고 언급되지만, 획득한 부분에서 구체적인 모델은 명명되지 않았습니다. 웹 에이전트의 3대 SOTA 플레이어인 GPT-5, Claude Opus 4.6/4.7, Gemini 3이 포함될 가능성이 높습니다.

왜 중요한가?

Odysseys는 실증적인 반과장 인사이트를 제공합니다. 업계는 「당신 대신 작업을 수행하는 AI 에이전트」（OpenAI Managed Agents, Mistral Vibe, Anthropic Claude Code）를 공격적으로 추진하지만, 실제 웹 애플리케이션은 다음을 보여줍니다：

모델은 다단계 웹 작업에서 인간 수준에 훨씬 미치지 못합니다
기존 벤치마크는 실제 능력을 과대평가합니다
효율적인 계획은 「최종적인 성공」보다 더 큰 결핍입니다

엔터프라이즈에게：웹 에이전트를 프로덕션 배포하기 전에 성공률과 동등한 지표로 궤적 효율을 측정해야 합니다. 그렇지 않으면 수동 작업보다 느린 「최종적인 성공」에 대한 토큰 비용을 지불하게 됩니다.

자주 묻는 질문

Odysseys는 기존 웹 에이전트 벤치마크와 무엇이 다릅니까?

기존 벤치마크는 프런티어 모델이 서서히 포화 상태에 달하고 있는 짧은 단일 사이트 작업으로 수렴했습니다. Odysseys는 **라이브 인터넷**의 실제 브라우징 세션（여러 페이지, 여러 단계）에서 나온 200개의 장기 작업을 제공합니다. 또한 평가는 루브릭 기반（작업당 평균 6.1개）으로 이진 통과/실패가 아닙니다.

궤적 효율이란 무엇입니까?

단계당 루브릭 점수를 측정하는 지표 — 에이전트가 평균적으로 얼마나 많은 「유용한」 작업을 수행하는지. 프런티어 모델은 1.15% 궤적 효율만 달성하며, 최종적으로 성공하더라도 에이전트가 해결에 기여하지 않는 많은 동작을 수행함을 의미합니다.

이 벤치마크는 무엇을 밝혀냈습니까?

프런티어 모델은 현실적인 장기 작업에서 44.5% 성공률을 달성합니다. 낮은 궤적 효율과 결합하면 현재 세대 에이전트가 체계적인 계획이 아닌 무차별 대입으로 「결국 성공」함을 보여줍니다. 폐쇄된 실험실 벤치마크와 실제 웹 애플리케이션 간의 진정한 격차를 드러냅니다.

ArXiv Odysseys：CMU의 현실적인 웹 에이전트 벤치마크가 최고 프런티어 모델이 장기 작업에서 44.5% 성공률과 1.15% 궤적 효율만 달성함을 밝혀