ArXiv：三维评估框架揭示LLM智能体工具调用决策缺陷

马克斯·普朗克软件系统研究所等机构研究人员发布了一个框架，通过三个维度评估LLM智能体的工具调用决策：必要性、效益和成本可接受性。对六个模型和三个任务的实验表明，模型认为需要的工具与实际提高准确性的工具之间存在显著差距，这直接影响生产智能体的成本和可靠性。

Max Planck Institute for Software Systems、Imperial College和Helmholtz Munich的Qinyuan Wu及合作者于2026年5月1日发布了一个框架，直接解决生产AI智能体最昂贵的问题之一：模型何时需要调用外部工具，何时不需要。论文标题——「To Call or Not to Call」——概括了在实践中产生秒级延迟、美元级API成本和百分比级准确性的困境。

出发点是工具调用并非总是有益的；有些是冗余的，有些甚至有害。网络搜索可能引入混乱信息迷惑模型，计算器可能被调用来处理模型已知的简单计算，数据库可能返回使上下文过载的不相关行。

工具调用评估的三个维度是什么？

框架通过三个正交维度评估每个潜在工具调用：必要性（任务是否根本需要该工具？）、效益（使用时是否改善结果？）和成本可接受性（额外延迟和成本是否合理？）。三者都必须为正才使调用合理。

差异微妙但关键：工具可能是必要的（任务客观上需要它）但无效益（没有它模型仍能达到准确性），或者可能是有益的（提高准确性）但在实时场景中因成本而无法获取。

作者如何将模型自我评估与现实进行比较？

方法结合了两种视角。规范性评估来自基准事实：对于任务X，哪些工具调用应该最优被调用？描述性来自模型行为：模型认为它需要哪些调用？

两者之间的差异揭示了系统性错误。模型经常调用对其没有帮助的工具（网络搜索是主要罪犯），有时错过本来有用的工具。换句话说，自我评估不是可靠的信号。

来自隐藏状态的轻量级估算器

主要技术贡献是作者训练轻量级估算器，从模型本身的隐藏状态预测必要性和效益——无需额外API调用。这些估算器成为控制器的基础，控制器决定是否需要工具调用，而不管模型”认为”什么。

在三个任务和六个模型上的实验表明，控制器在综合准确性和成本方面始终优于模型自我评估。

这对AI工程师意味着什么？

对于使用LangGraph、AutoGen或Anthropic工具计算机构建智能体的团队，该论文验证了一个常见直觉：不要让模型自行决定是否需要工具——设置一个门控层。 这种实践过去是启发式方法，现在有了正式框架和实证结果。

更广泛的影响也触及智能体经济：如果生产系统可以避免20-30%的无益工具调用，在每日百万请求的规模下，仅减少API消费就能节省可观的成本。

常见问题

「是否调用」框架研究什么？

该框架研究LLM智能体何时需要、何时不需要调用外部工具（网络搜索、计算器、数据库）。它区分模型的自我评估（「我认为我需要它」）和工具调用对答案准确性的实际效益。

工具调用评估的三个维度是什么？

必要性（是否根本需要该工具？）、效益（是否改善结果？）和成本可接受性（延迟/成本是否合理？）。三者都必须为正才使工具调用合理。

作者发现了模型自我评估的什么问题？

模型认为有用的工具与实际提高准确性的工具之间存在显著分歧。模型有时调用对其没有帮助的工具（尤其是引入嘈杂信息的网络搜索），有时错过本来有用的工具。

ArXiv框架「是否调用」揭示LLM错误判断何时需要外部工具

工具调用评估的三个维度是什么？

作者如何将模型自我评估与现实进行比较？

来自隐藏状态的轻量级估算器

这对AI工程师意味着什么？

常见问题

来源

相关新闻