🤖 24 AI
🟢 🤝 智能体 2026年4月16日星期四 · 1 分钟阅读

IBM Research:VAKRA基准测试揭示AI代理在复杂推理上的失败

为什么重要

IBM Research发布了VAKRA——一个用于在企业环境中评估AI代理的新基准,包含超过8,000个本地API、62个领域和4,187个测试实例。关键发现是模型在简单任务上表现出表面能力,但在组合推理上失败,多跳推理随深度降级,遵守外部约束导致性能显著下降。

IBM Research发布了VAKRA——一个在现实企业场景中对AI代理进行测试的新基准。拥有超过8,000个本地API、62个领域和4,187个测试实例,VAKRA是测试代理能力最全面的评估框架之一。

AI代理在哪里失败?

关键发现是表面能力与真实可靠性之间的差距。AI代理可以成功解决需要一两个API调用的简单任务,但当任务需要组合推理——将多个工具和步骤组合成连贯计划的能力——时,性能会急剧下降。

多跳推理(通过多个步骤进行推理)尤其成问题:链中的每个额外步骤都会降低准确性,代理在三到四个步骤后经常”迷失方向”。这对于企业场景尤为相关,因为业务流程自动化正是需要这类多步骤操作。

为什么遵守规则如此困难?

VAKRA还测试了一项被称为政策遵守性的能力——代理遵守工具使用外部约束的能力。例如,代理可能可以访问删除用户数据的API,但公司政策要求事先获得上级授权。

结果显示代理在这方面犯了重大错误,经常在不检查约束的情况下执行操作或完全忽略政策。对于考虑在业务流程中使用自主AI代理的公司,这表明需要在代理能力之上建立强健的治理和监督层。

🤖

本文由人工智能基于一手来源生成。