什么是VAKRA基准测试？

这是IBM的AI代理评估框架，包含8,000+个API和4,187个测试实例，测量代理使用工具、通过多个步骤进行推理以及遵守外部约束的能力。

AI代理最常在哪里失败？

代理在简单任务上表现出表面能力，但在组合推理上失败——即将多个步骤和工具组合成连贯计划以解决复杂任务的能力。

IBM Research发布了VAKRA——一个在现实企业场景中对AI代理进行测试的新基准。拥有超过8,000个本地API、62个领域和4,187个测试实例，VAKRA是测试代理能力最全面的评估框架之一。

关键发现是表面能力与真实可靠性之间的差距。AI代理可以成功解决需要一两个API调用的简单任务，但当任务需要组合推理——将多个工具和步骤组合成连贯计划的能力——时，性能会急剧下降。

多跳推理（通过多个步骤进行推理）尤其成问题：链中的每个额外步骤都会降低准确性，代理在三到四个步骤后经常”迷失方向”。这对于企业场景尤为相关，因为业务流程自动化正是需要这类多步骤操作。

VAKRA还测试了一项被称为政策遵守性的能力——代理遵守工具使用外部约束的能力。例如，代理可能可以访问删除用户数据的API，但公司政策要求事先获得上级授权。

结果显示代理在这方面犯了重大错误，经常在不检查约束的情况下执行操作或完全忽略政策。对于考虑在业务流程中使用自主AI代理的公司，这表明需要在代理能力之上建立强健的治理和监督层。