ArXiv Odysseys:CMU의 현실적인 웹 에이전트 벤치마크가 최고 프런티어 모델이 장기 작업에서 44.5% 성공률과 1.15% 궤적 효율만 달성함을 밝혀
CMU 연구원 Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov는 2026년 4월 27일 ArXiv 프리프린트 Odysseys를 발표했습니다. 이는 라이브 인터넷의 실제 브라우징 세션에서 나온 200개의 장기 웹 작업 벤치마크입니다. 루브릭 기반 평가(작업당 평균 6.1개의 루브릭)는 가장 강력한 프런티어 모델이 44.5% 성공률과 1.15% 궤적 효율만 달성함을 보여주며, 현재 웹 에이전트의 거대한 결함을 드러냅니다.
카네기 멜론 대학교 팀(Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov)은 2026년 4월 27일 프리프린트 **「Odysseys:현실적인 장기 작업에서 웹 에이전트 벤치마킹」**을 발표했습니다. 현재 웹 에이전트가 실제 응용에서 얼마나 멀리 떨어져 있는지를 보여주는 새 벤치마크입니다.
기존 벤치마크의 문제
추상 인용:
「기존 웹 에이전트 벤치마크는 프런티어 모델이 포화에 근접하고 있는 짧은 단일 사이트 작업으로 대체로 수렴했습니다.」
다시 말해:WebArena, Mind2Web 등의 벤치마크는 「포화」되어 가고 있습니다 — 프런티어 모델이 이것들에서 높은 정확도를 달성하여 문제가 해결된 것 같은 인상을 줍니다. 실제 웹 애플리케이션은 다릅니다:
- 동시에 여러 페이지와 여러 웹 사이트
- 세션이 10분 이상 지속
- 페이지가 실시간으로 변화(쿠키, 팝업, A/B 테스트)
- 목표가 단의적이지 않음
Odysseys — 무엇이 새로운가?
벤치마크는 라이브 인터넷에서 테스트된 실제 브라우징 세션에서 나온 200개의 장기 웹 작업으로 구성됩니다. 각 작업은 이진 통과/실패가 아닌 평가를 위해 평균 6.1개의 루브릭을 가집니다.
루브릭 기반 접근법은 두 가지 이점을 가져옵니다:
- 더 세밀한 인사이트 — 에이전트가 작업의 어느 부분을 해결하고 어느 부분을 해결하지 못하는지
- 인간 판단과의 일치 향상 — 저자들은 루브릭 평가가 「궤적 수준의 LLM 평가와 비교하여 인간 판단과의 일치가 향상되었다」고 언급합니다
결과:고통스러운 격차
「테스트된 가장 강력한 프런티어 모델」에 대한 두 가지 핵심 지표:
- 성공률:44.5% — 절반 미만의 작업이 성공
- 궤적 효율:1.15% — 단계당 루브릭 점수
두 번째 수치가 특히 우려됩니다. 낮은 궤적 효율은 에이전트가 해결에 기여하지 않는 많은 동작을 수행함을 의미합니다 — 목적 없이 페이지를 브라우징하고, 잘못된 링크를 클릭하고, 결국 성공할 수 있지만 체계적인 계획이 아닌 무차별 대입을 통해서입니다.
테스트된 모델
추상에서는 「여러 주요 프런티어 모델」이라고 언급되지만, 획득한 부분에서 구체적인 모델은 명명되지 않았습니다. 웹 에이전트의 3대 SOTA 플레이어인 GPT-5, Claude Opus 4.6/4.7, Gemini 3이 포함될 가능성이 높습니다.
왜 중요한가?
Odysseys는 실증적인 반과장 인사이트를 제공합니다. 업계는 「당신 대신 작업을 수행하는 AI 에이전트」(OpenAI Managed Agents, Mistral Vibe, Anthropic Claude Code)를 공격적으로 추진하지만, 실제 웹 애플리케이션은 다음을 보여줍니다:
- 모델은 다단계 웹 작업에서 인간 수준에 훨씬 미치지 못합니다
- 기존 벤치마크는 실제 능력을 과대평가합니다
- 효율적인 계획은 「최종적인 성공」보다 더 큰 결핍입니다
엔터프라이즈에게:웹 에이전트를 프로덕션 배포하기 전에 성공률과 동등한 지표로 궤적 효율을 측정해야 합니다. 그렇지 않으면 수동 작업보다 느린 「최종적인 성공」에 대한 토큰 비용을 지불하게 됩니다.
자주 묻는 질문
- Odysseys는 기존 웹 에이전트 벤치마크와 무엇이 다릅니까?
- 기존 벤치마크는 프런티어 모델이 서서히 포화 상태에 달하고 있는 짧은 단일 사이트 작업으로 수렴했습니다. Odysseys는 **라이브 인터넷**의 실제 브라우징 세션(여러 페이지, 여러 단계)에서 나온 200개의 장기 작업을 제공합니다. 또한 평가는 루브릭 기반(작업당 평균 6.1개)으로 이진 통과/실패가 아닙니다.
- 궤적 효율이란 무엇입니까?
- 단계당 루브릭 점수를 측정하는 지표 — 에이전트가 평균적으로 얼마나 많은 「유용한」 작업을 수행하는지. 프런티어 모델은 1.15% 궤적 효율만 달성하며, 최종적으로 성공하더라도 에이전트가 해결에 기여하지 않는 많은 동작을 수행함을 의미합니다.
- 이 벤치마크는 무엇을 밝혀냈습니까?
- 프런티어 모델은 현실적인 장기 작업에서 44.5% 성공률을 달성합니다. 낮은 궤적 효율과 결합하면 현재 세대 에이전트가 체계적인 계획이 아닌 무차별 대입으로 「결국 성공」함을 보여줍니다. 폐쇄된 실험실 벤치마크와 실제 웹 애플리케이션 간의 진정한 격차를 드러냅니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.