OSWorld研究:AI电脑操控智能体在重复任务时频繁失败
为什么重要
一项新研究表明,曾成功执行任务的AI电脑操控智能体在相同任务的重复尝试中可能失败,三个关键原因分别是执行随机性、任务规范模糊性和智能体自身行为的可变性。
Gonzalez-Pumariega及其合著者以及Xin Eric Wang的一项新研究揭示了评估电脑操控AI智能体中的一个系统性问题:单次成功执行任务并不能保证智能体下次也能成功。
三个主要不稳定原因是什么?
研究确定了三个因素共同造成智能体的不可靠性。第一是执行随机性——每次尝试都涉及随机因素,如界面加载的时间变化、模型采样的不同结果以及操作系统状态的细微变化。
第二个因素是任务规范的模糊性。同一任务的表述可能足够不明确,可以以多种方式执行,某些方式在一种衡量标准下”成功”,在另一种标准下”失败”。
第三个是智能体自身行为的可变性——即使在相同输入下,智能体并不总是做出相同的决策,特别是在较长的动作链中,小差异会累积放大。
OSWorld基准测试如何帮助发现问题?
作者在OSWorld基准测试上进行了实验,这是一个在真实操作系统和应用程序中评估AI智能体的平台。关键的方法论干预是多次重复相同任务,而非标准的单次测量。
结果显示,在一次运行中解决任务的智能体在下一次运行中可能会卡住、走向不成功的另一条路,或陷入循环。这种不稳定性在每个任务只测试一次的基准测试中无法被发现。
结论是,标准评估中公布的成功率数字可能被高估,因为它们没有考虑智能体在十次尝试中实际成功的次数。
这对智能体开发意味着什么?
对于构建基于电脑操控智能体的生产系统的任何人来说,实际影响都很重要。如果智能体在十次尝试中有七次成功,在生产环境中这意味着十分之三的用户会遇到失败——这对许多使用场景来说是不可接受的。
作者建议将多次评估作为标准,同时测量方差而非仅仅测量平均成功率。他们还建议改善任务规范以减少模糊性,并在可能的情况下采用更鲁棒的确定性界面。
对研究界而言,这意味着需要修改报告结果的方式;对产品构建者而言,则需要添加额外机制,如重试逻辑、结果验证和人机协作控制。
本文由人工智能基于一手来源生成。