ArXiv Odysseys:CMUによるリアルなウェブエージェントベンチマークで、最強のフロンティアモデルが長程タスクで44.5%の成功率と1.15%の軌跡効率しか達成できないことが判明
CMUの研究者Lawrence Keunho Jang、Jing Yu Koh、Daniel Fried、Ruslan Salakhutdinovは2026年4月27日、ArXivプレプリント「Odysseys」を発表しました。これはライブインターネット上の本物のブラウジングセッションから得た200の長程ウェブタスクのベンチマークです。ルーブリックベースの評価(タスクあたり平均6.1のルーブリック)により、最強のフロンティアモデルでもわずか44.5%の成功率と1.15%の軌跡効率しか達成できないことが示され、現在のウェブエージェントの巨大な欠点が明らかになりました。
カーネギーメロン大学のチーム(Lawrence Keunho Jang、Jing Yu Koh、Daniel Fried、Ruslan Salakhutdinov)は2026年4月27日、プレプリント**「Odysseys:リアルな長程タスクでのウェブエージェントのベンチマーク」**を発表しました。これは現在のウェブエージェントが実際の応用からいかに遠いかを示す新しいベンチマークです。
既存ベンチマークの問題
アブストラクトからの引用:
「既存のウェブエージェントベンチマークは、フロンティアモデルが飽和に近づいている短い単一サイトのタスクにほぼ収束している。」
言い換えれば:WebArena、Mind2Webなどのベンチマークは「飽和」しつつあります — フロンティアモデルがこれらで高い精度を達成するため、問題が解決されたような印象を与えます。実際のウェブアプリケーションは異なります:
- 複数のページと複数のウェブサイトを同時に操作
- セッションが10分以上継続
- ページがリアルタイムで変化(クッキー、ポップアップ、A/Bテスト)
- 目標が一義的ではない
Odysseys — 何が新しいのか?
ベンチマークはライブインターネット上でテストされた本物のブラウジングセッションから得た200の長程ウェブタスクで構成されています。各タスクは二項判定ではなく、評価のために平均6.1のルーブリックを持ちます。
ルーブリックベースのアプローチには2つの利点があります:
- より細かいインサイト — エージェントがタスクのどの部分を解決し、どの部分を解決しないか
- 人間の判断との整合性向上 — 著者たちはルーブリック評価が「軌跡レベルのLLM評価と比較して人間の判断との整合性が向上している」と述べています
結果:痛みを伴うギャップ
「テストされた最強のフロンティアモデル」に対する2つの主要指標:
- 成功率:44.5% — 半数未満のタスクが成功
- 軌跡効率:1.15% — ステップあたりのルーブリックスコア
2番目の数字は特に懸念されます。低い軌跡効率は、エージェントが解決に貢献しない多くのアクションを実行していることを意味します — ページを目的もなく閲覧し、間違ったリンクをクリックし、最終的に成功するかもしれませんが、体系的な計画ではなくブルートフォースによるものです。
テストされたモデル
アブストラクトでは「いくつかの主要なフロンティアモデル」と述べられていますが、取得した部分では具体的なモデルは名前が挙げられていません。ウェブエージェントの3大SOTAプレイヤーであるGPT-5、Claude Opus 4.6/4.7、Gemini 3が含まれる可能性が高いです。
なぜ重要なのか?
Odysseysは実証的な反ハイプの洞察を提供します。業界は「あなたの代わりにタスクを実行するAIエージェント」(OpenAI Managed Agents、Mistral Vibe、Anthropic Claude Code)を積極的に推進していますが、実際のウェブアプリケーションは次のことを示しています:
- モデルはマルチステップのウェブタスクで人間レベルにはほど遠い
- 既存のベンチマークは実際の能力を過大評価しています
- 効率的な計画は「最終的な成功」よりも大きな欠如です
エンタープライズにとって:ウェブエージェントを本番展開する前に、成功率と同等の指標として軌跡効率を測定する必要があります。そうしなければ、手作業より時間がかかる「最終的な成功」のためにトークンコストを支払うことになります。
よくある質問
- Odysseysは既存のウェブエージェントベンチマークと何が違いますか?
- 既存のベンチマークはフロンティアモデルが徐々に飽和しつつある短い単一サイトのタスクに収束しています。Odysseysは**ライブインターネット**上の本物のブラウジングセッションから得た200の長程タスク(複数のページ、複数のステップ)を提供します。さらに評価はルーブリックベース(タスクあたり平均6.1のルーブリック)で、二項判定ではありません。
- 軌跡効率とは何ですか?
- ステップあたりのルーブリックスコアを測定する指標 — エージェントが平均してどれだけ「有用な」アクションを実行するか。フロンティアモデルは1.15%の軌跡効率しか達成せず、最終的に成功した場合でも、エージェントは解決に貢献しないアクションを多数実行していることを意味します。
- このベンチマークは何を明らかにしていますか?
- フロンティアモデルはリアルな長程タスクで44.5%の成功率を達成します。低い軌跡効率と組み合わさると、現行世代のエージェントが体系的な計画ではなくブルートフォースで「最終的に成功する」ことが示されます。閉鎖的なラボベンチマークと実際のウェブアプリケーション間の真のギャップが明らかになります。
この記事はAIにより一次情報源から生成されました。