什么是电脑操控智能体？

电脑操控智能体是像人类一样操控电脑的AI智能体——使用鼠标、键盘并读取屏幕，在真实应用程序中执行任务。

什么是OSWorld基准测试？

OSWorld是用于在真实操作系统中评估AI智能体的基准测试，衡量其在应用程序和界面中执行任务的能力。

单次测试会掩盖系统性可靠性问题，因为智能体可能偶然成功或失败；只有多次重复才能揭示真实的稳定性。

Gonzalez-Pumariega及其合著者以及Xin Eric Wang的一项新研究揭示了评估电脑操控AI智能体中的一个系统性问题：单次成功执行任务并不能保证智能体下次也能成功。

研究确定了三个因素共同造成智能体的不可靠性。第一是执行随机性——每次尝试都涉及随机因素，如界面加载的时间变化、模型采样的不同结果以及操作系统状态的细微变化。

第二个因素是任务规范的模糊性。同一任务的表述可能足够不明确，可以以多种方式执行，某些方式在一种衡量标准下”成功”，在另一种标准下”失败”。

第三个是智能体自身行为的可变性——即使在相同输入下，智能体并不总是做出相同的决策，特别是在较长的动作链中，小差异会累积放大。

作者在OSWorld基准测试上进行了实验，这是一个在真实操作系统和应用程序中评估AI智能体的平台。关键的方法论干预是多次重复相同任务，而非标准的单次测量。

结果显示，在一次运行中解决任务的智能体在下一次运行中可能会卡住、走向不成功的另一条路，或陷入循环。这种不稳定性在每个任务只测试一次的基准测试中无法被发现。

结论是，标准评估中公布的成功率数字可能被高估，因为它们没有考虑智能体在十次尝试中实际成功的次数。

对于构建基于电脑操控智能体的生产系统的任何人来说，实际影响都很重要。如果智能体在十次尝试中有七次成功，在生产环境中这意味着十分之三的用户会遇到失败——这对许多使用场景来说是不可接受的。

作者建议将多次评估作为标准，同时测量方差而非仅仅测量平均成功率。他们还建议改善任务规范以减少模糊性，并在可能的情况下采用更鲁棒的确定性界面。

对研究界而言，这意味着需要修改报告结果的方式；对产品构建者而言，则需要添加额外机制，如重试逻辑、结果验证和人机协作控制。