arXiv：FALAT 在 AI 智能体轨迹中查找故障根因

FALAT 是一个用于在多智能体 LLM 系统中归因故障根因的新诊断框架，被表述为一种依赖引导的搜索。它在算法生成的轨迹上达到 46.0% 的步骤级准确率，在人工构建的轨迹上达到 29.1%，表明捕捉步骤间的依赖关系对于识别错误根因至关重要。

发表在 arXiv 上、标题为「FALAT: Tracing Failures in LLM Agent Trajectories via Dependency-Guided Search」的论文，提出了一个针对多智能体系统中最棘手问题之一的诊断框架。作者为 Md Nakhla Rafi、Md Ahasanuzzaman、Dong Jae Kim、Zhijie Wang 和 Tse-Hsun Chen。

FALAT 解决什么问题？

在多个 LLM 智能体协作完成任务的系统中，故障并不容易归因。错误可能沿着轨迹传播：后续的动作看起来是错误的，但这只是因为它们依赖于更早出现故障的状态。这里的轨迹是指智能体所采取的整个步骤与决策序列。FALAT 试图确定究竟是哪个智能体真正导致了故障，以及决定性的错误是在哪一步产生的。

FALAT 如何工作？

该框架被表述为「dependency-guided search」，即依赖引导的搜索。FALAT 首先构建对任务正确执行的预期，然后识别轨迹中可疑的区域，追踪决策与输出之间的依赖关系，并评估纠正某个候选步骤是否会恢复预期的结果。这样，便不再停留于表面地审视最后一个可见的错误步骤，而是定位到故障的真正源头。

结果如何？

在 Who&When 基准集上，FALAT 对算法生成的轨迹达到 46.0% 的步骤级准确率，对人工构建的轨迹达到 29.1%。这些数字超越了专门的归因基线方法以及对独立 LLM 模型的直接提示。两个数据集之间的差异也表明，在人工构建、更为多样化的轨迹上，该任务的难度更高。

这为什么重要？

结果强调，具备依赖意识的推理对于诊断 LLM 智能体系统中的故障至关重要。随着智能体系统进入生产环境，精确归因错误根因的能力成为可靠性、调试和问责的前提。FALAT 为这一挑战提供了一种结构化方法，而非单纯地猜测是哪一步出了问题。

常见问题

FALAT 试图确定什么？

FALAT 试图确定在多智能体 LLM 系统中是哪个智能体导致了故障，以及决定性的错误是在哪一步产生的。

FALAT 达到了多高的准确率？

它在算法生成的轨迹上达到 46.0% 的步骤级准确率，在人工构建的轨迹上达到 29.1%，超越了专门的基线方法和直接提示。

arXiv:2606.00765：FALAT 在 AI 智能体轨迹中追踪故障根因

FALAT 解决什么问题？

FALAT 如何工作？

结果如何？

这为什么重要？

常见问题

来源

相关新闻