🟡 🤝 智能体 2026年4月30日星期四 · 2 分钟阅读 ·

ArXiv Odysseys:卡内基梅隆大学真实网络智能体基准测试显示,顶尖前沿模型在长程任务上仅达到44.5%成功率和1.15%轨迹效率

编辑插图:网页连接成带有评分标准的长任务网络

卡内基梅隆大学研究人员Lawrence Keunho Jang、Jing Yu Koh、Daniel Fried和Ruslan Salakhutdinov于2026年4月27日发布了ArXiv预印本Odysseys——一个包含200个真实浏览会话长程网络任务的基准测试,在真实互联网上运行。基于评分标准的评估(每个任务平均6.1个评分标准)显示,最强的前沿模型仅达到44.5%的成功率和1.15%的轨迹效率,揭示了当前网络智能体的巨大缺陷。

卡内基梅隆大学团队(Lawrence Keunho Jang、Jing Yu Koh、Daniel Fried、Ruslan Salakhutdinov)于2026年4月27日发布预印本**《Odysseys:真实长程任务上的网络智能体基准测试》**——一个新基准测试,展示了当前网络智能体与实际应用的距离有多远。

现有基准测试的问题

摘要引用:

“现有网络智能体基准测试已大多收敛于短程单站点任务,前沿模型正趋近饱和。”

换言之:WebArena、Mind2Web等基准测试正变得”饱和”——前沿模型在这些测试上达到高准确率,给人以问题已解决的印象。而真实网络应用大相径庭

  • 多个页面和网站同时操作
  • 会话持续10分钟以上
  • 页面实时变化(Cookie、弹窗、A/B测试)
  • 目标并不单一明确

Odysseys——有何新意?

基准测试由来自真实浏览会话200个长程网络任务组成,在真实互联网上测试。每个任务平均有6.1个评分标准用于评估,而非二元通过/失败。

基于评分标准的方法带来两个优势:

  1. 更细粒度的洞察 — 智能体解决了任务的哪些部分,哪些部分未解决
  2. 与人类判断更一致 — 作者表示评分标准评估显示”与人类判断的一致性优于轨迹级别的大语言模型评估”

结果:令人痛心的差距

针对”测试中最强前沿模型”的两个关键指标:

  • 成功率:44.5% — 不到一半的任务成功完成
  • 轨迹效率:1.15% — 每步的评分标准得分

第二个数字尤为令人担忧。低轨迹效率意味着智能体执行了大量对解决任务无贡献的动作——在页面间漫无目的地浏览,点击错误链接,最终可能成功,但路径是暴力尝试,而非系统规划。

测试的模型

摘要提到”几个顶尖前沿模型”,但在获取的部分中未具体命名。很可能包括GPT-5、Claude Opus 4.6/4.7、Gemini 3——网络智能体领域三大SOTA玩家。

为何重要?

Odysseys提供了实证性的反炒作视角。行业大力推动”代替人执行任务的AI智能体”(OpenAI Managed Agents、Mistral Vibe、Anthropic Claude Code),但真实网络应用表明:

  1. 模型在多步骤网络任务上远未达到人类水平
  2. 现有基准测试高估了实际能力
  3. 高效规划比”最终成功”的缺口更大

对企业而言:在生产部署网络智能体之前,需要将轨迹效率与成功率并列作为同等重要的指标。否则,为那些比手动操作更慢的”最终成功”付出词元代价。

常见问题

Odysseys与现有网络智能体基准测试有何不同?
现有基准测试已趋向于短程单站点任务,前沿模型正逐渐达到饱和。Odysseys提供200个来自真实浏览会话(多页面、多步骤)在**真实互联网**上的长程任务——而非合成路径。此外,评估基于评分标准(每个任务平均6.1个),而非二元通过/失败判断。
什么是轨迹效率?
衡量每步评分标准得分的指标——智能体平均执行多少“有用”动作。前沿模型的轨迹效率仅为1.15%,意味着即使最终成功,智能体也会执行大量对解决任务无贡献的动作。
这个基准测试揭示了什么?
前沿模型在真实长程任务上的成功率为44.5%。结合低轨迹效率,表明当前一代智能体通过“暴力尝试”而非系统规划“最终成功”。揭示了封闭实验室基准测试与真实网络应用之间的真实差距。
🤖

本文由人工智能基于一手来源生成。