ArXiv Odysseys：SOTA网络智能体44.5% / 1.15%效率

卡内基梅隆大学研究人员Lawrence Keunho Jang、Jing Yu Koh、Daniel Fried和Ruslan Salakhutdinov于2026年4月27日发布了ArXiv预印本Odysseys——一个包含200个真实浏览会话长程网络任务的基准测试，在真实互联网上运行。基于评分标准的评估（每个任务平均6.1个评分标准）显示，最强的前沿模型仅达到44.5%的成功率和1.15%的轨迹效率，揭示了当前网络智能体的巨大缺陷。

卡内基梅隆大学团队（Lawrence Keunho Jang、Jing Yu Koh、Daniel Fried、Ruslan Salakhutdinov）于2026年4月27日发布预印本**《Odysseys：真实长程任务上的网络智能体基准测试》**——一个新基准测试，展示了当前网络智能体与实际应用的距离有多远。

现有基准测试的问题

摘要引用：

“现有网络智能体基准测试已大多收敛于短程单站点任务，前沿模型正趋近饱和。”

换言之：WebArena、Mind2Web等基准测试正变得”饱和”——前沿模型在这些测试上达到高准确率，给人以问题已解决的印象。而真实网络应用大相径庭：

多个页面和网站同时操作
会话持续10分钟以上
页面实时变化（Cookie、弹窗、A/B测试）
目标并不单一明确

Odysseys——有何新意？

基准测试由来自真实浏览会话的200个长程网络任务组成，在真实互联网上测试。每个任务平均有6.1个评分标准用于评估，而非二元通过/失败。

基于评分标准的方法带来两个优势：

更细粒度的洞察 — 智能体解决了任务的哪些部分，哪些部分未解决
与人类判断更一致 — 作者表示评分标准评估显示”与人类判断的一致性优于轨迹级别的大语言模型评估”

结果：令人痛心的差距

针对”测试中最强前沿模型”的两个关键指标：

成功率：44.5% — 不到一半的任务成功完成
轨迹效率：1.15% — 每步的评分标准得分

第二个数字尤为令人担忧。低轨迹效率意味着智能体执行了大量对解决任务无贡献的动作——在页面间漫无目的地浏览，点击错误链接，最终可能成功，但路径是暴力尝试，而非系统规划。

测试的模型

摘要提到”几个顶尖前沿模型”，但在获取的部分中未具体命名。很可能包括GPT-5、Claude Opus 4.6/4.7、Gemini 3——网络智能体领域三大SOTA玩家。

为何重要？

Odysseys提供了实证性的反炒作视角。行业大力推动”代替人执行任务的AI智能体”（OpenAI Managed Agents、Mistral Vibe、Anthropic Claude Code），但真实网络应用表明：

模型在多步骤网络任务上远未达到人类水平
现有基准测试高估了实际能力
高效规划比”最终成功”的缺口更大

对企业而言：在生产部署网络智能体之前，需要将轨迹效率与成功率并列作为同等重要的指标。否则，为那些比手动操作更慢的”最终成功”付出词元代价。

常见问题

Odysseys与现有网络智能体基准测试有何不同？

现有基准测试已趋向于短程单站点任务，前沿模型正逐渐达到饱和。Odysseys提供200个来自真实浏览会话（多页面、多步骤）在**真实互联网**上的长程任务——而非合成路径。此外，评估基于评分标准（每个任务平均6.1个），而非二元通过/失败判断。

什么是轨迹效率？

衡量每步评分标准得分的指标——智能体平均执行多少“有用”动作。前沿模型的轨迹效率仅为1.15%，意味着即使最终成功，智能体也会执行大量对解决任务无贡献的动作。

这个基准测试揭示了什么？

前沿模型在真实长程任务上的成功率为44.5%。结合低轨迹效率，表明当前一代智能体通过“暴力尝试”而非系统规划“最终成功”。揭示了封闭实验室基准测试与真实网络应用之间的真实差距。

ArXiv Odysseys：卡内基梅隆大学真实网络智能体基准测试显示，顶尖前沿模型在长程任务上仅达到44.5%成功率和1.15%轨迹效率