🟡 🤝 智能体 2026年5月1日星期五 · 2 分钟阅读 ·

WindowsWorld基准测试:领先的计算机操作智能体在跨多个桌面应用任务中成功率不足21%

编辑插图:桌面屏幕上显示多个打开的窗口,箭头连接各应用程序形成工作流

WindowsWorld是一个新型自主GUI智能体基准测试,涵盖17个桌面应用中基于16种职业的181个任务,平均每个任务包含5.0个子目标。领先的计算机操作智能体在跨应用任务中成功率不足21%,揭示了OSWorld等孤立测试与实际专业跨应用条件推理工作之间的巨大差距。

来自哈尔滨工业技术学院的研究团队(李金超、李云鑫、赵晨瑞、徐振然、胡宝田和张敏)于2026年4月30日在ArXiv发布了自主GUI智能体的新基准测试。WindowsWorld将焦点从单应用孤立任务转向跨越多个程序边界的真实专业工作,并揭示领先的计算机操作智能体在此类任务中成功率不足21%。

WindowsWorld与OSWorld的测量方式有何不同?

OSWorld及相关基准测试主要在单个应用内评估智能体:打开浏览器、双击、填写表单。WindowsWorld明确涵盖多应用工作流——例如,从Excel表格中提取数据、在邮件客户端准备邮件草稿,并在演示工具中制作包含结果的演示文稿,所有这些在一个任务中完成。181个任务中78%本质上是多应用场景,平均任务包含5.0个子目标,分布在17个不同的桌面应用中。任务通过多智能体框架生成,由16种职业角色引导,随后经过人工审核并在模拟环境中运行。

为什么当任务跨越三个应用时智能体会失败?

作者的主要实验发现在不同基准测试之间存在不一致性。尽管领先的智能体在单应用任务中表现良好,但在多应用工作流中成功率降至21%以下。具体问题在于跨三个或更多应用的条件推理(conditional judgment)——智能体在早期子目标处停滞或重复相同步骤。另一个问题是执行效率低:智能体甚至超过了人类的步骤上限,却仍无法完成任务。换句话说,问题不仅在于步骤数量,而在于在程序上下文切换过程中维持状态的能力。

对办公室智能体应用的启示

计算机操作智能体是增长最快的AI产品之一——Anthropic、OpenAI和Google DeepMind都在积极推广智能体作为常规办公工作的替代方案。WindowsWorld表明,当前一代智能体远未能可靠地执行真实日常专业工作中典型的多应用任务。该基准测试有望成为下一代智能体发展的现实指向,就像SWE-bench为编程智能体定义方向一样。

常见问题

WindowsWorld涵盖多少任务和应用?
基准测试包含181个任务,每个任务平均有5.0个子目标,分布在17个常见桌面应用中。78%的任务本质上是多应用场景。
最佳GUI智能体的成功率是多少?
所有测试的领先计算机操作智能体在多应用任务中成功率不足21%——远低于孤立的单应用测试结果。
WindowsWorld与OSWorld有何不同?
OSWorld及类似基准测试衡量孤立的单应用任务,而WindowsWorld明确面向跨应用工作流,包含在专业工作中典型的条件分支推理。
🤖

本文由人工智能基于一手来源生成。