arXiv:2606.00765:FALAT 在 AI 智能体轨迹中追踪故障根因
FALAT 是一个用于在多智能体 LLM 系统中归因故障根因的新诊断框架,被表述为一种依赖引导的搜索。它在算法生成的轨迹上达到 46.0% 的步骤级准确率,在人工构建的轨迹上达到 29.1%,表明捕捉步骤间的依赖关系对于识别错误根因至关重要。
本文由人工智能基于一手来源生成。
发表在 arXiv 上、标题为「FALAT: Tracing Failures in LLM Agent Trajectories via Dependency-Guided Search」的论文,提出了一个针对多智能体系统中最棘手问题之一的诊断框架。作者为 Md Nakhla Rafi、Md Ahasanuzzaman、Dong Jae Kim、Zhijie Wang 和 Tse-Hsun Chen。
FALAT 解决什么问题?
在多个 LLM 智能体协作完成任务的系统中,故障并不容易归因。错误可能沿着轨迹传播:后续的动作看起来是错误的,但这只是因为它们依赖于更早出现故障的状态。这里的轨迹是指智能体所采取的整个步骤与决策序列。FALAT 试图确定究竟是哪个智能体真正导致了故障,以及决定性的错误是在哪一步产生的。
FALAT 如何工作?
该框架被表述为「dependency-guided search」,即依赖引导的搜索。FALAT 首先构建对任务正确执行的预期,然后识别轨迹中可疑的区域,追踪决策与输出之间的依赖关系,并评估纠正某个候选步骤是否会恢复预期的结果。这样,便不再停留于表面地审视最后一个可见的错误步骤,而是定位到故障的真正源头。
结果如何?
在 Who&When 基准集上,FALAT 对算法生成的轨迹达到 46.0% 的步骤级准确率,对人工构建的轨迹达到 29.1%。这些数字超越了专门的归因基线方法以及对独立 LLM 模型的直接提示。两个数据集之间的差异也表明,在人工构建、更为多样化的轨迹上,该任务的难度更高。
这为什么重要?
结果强调,具备依赖意识的推理对于诊断 LLM 智能体系统中的故障至关重要。随着智能体系统进入生产环境,精确归因错误根因的能力成为可靠性、调试和问责的前提。FALAT 为这一挑战提供了一种结构化方法,而非单纯地猜测是哪一步出了问题。
常见问题
- FALAT 试图确定什么?
- FALAT 试图确定在多智能体 LLM 系统中是哪个智能体导致了故障,以及决定性的错误是在哪一步产生的。
- FALAT 达到了多高的准确率?
- 它在算法生成的轨迹上达到 46.0% 的步骤级准确率,在人工构建的轨迹上达到 29.1%,超越了专门的基线方法和直接提示。