ArXiv框架「是否调用」揭示LLM错误判断何时需要外部工具
马克斯·普朗克软件系统研究所等机构研究人员发布了一个框架,通过三个维度评估LLM智能体的工具调用决策:必要性、效益和成本可接受性。对六个模型和三个任务的实验表明,模型认为需要的工具与实际提高准确性的工具之间存在显著差距,这直接影响生产智能体的成本和可靠性。
本文由人工智能基于一手来源生成。
Max Planck Institute for Software Systems、Imperial College和Helmholtz Munich的Qinyuan Wu及合作者于2026年5月1日发布了一个框架,直接解决生产AI智能体最昂贵的问题之一:模型何时需要调用外部工具,何时不需要。论文标题——「To Call or Not to Call」——概括了在实践中产生秒级延迟、美元级API成本和百分比级准确性的困境。
出发点是工具调用并非总是有益的;有些是冗余的,有些甚至有害。网络搜索可能引入混乱信息迷惑模型,计算器可能被调用来处理模型已知的简单计算,数据库可能返回使上下文过载的不相关行。
工具调用评估的三个维度是什么?
框架通过三个正交维度评估每个潜在工具调用:必要性(任务是否根本需要该工具?)、效益(使用时是否改善结果?)和成本可接受性(额外延迟和成本是否合理?)。三者都必须为正才使调用合理。
差异微妙但关键:工具可能是必要的(任务客观上需要它)但无效益(没有它模型仍能达到准确性),或者可能是有益的(提高准确性)但在实时场景中因成本而无法获取。
作者如何将模型自我评估与现实进行比较?
方法结合了两种视角。规范性评估来自基准事实:对于任务X,哪些工具调用应该最优被调用?描述性来自模型行为:模型认为它需要哪些调用?
两者之间的差异揭示了系统性错误。模型经常调用对其没有帮助的工具(网络搜索是主要罪犯),有时错过本来有用的工具。换句话说,自我评估不是可靠的信号。
来自隐藏状态的轻量级估算器
主要技术贡献是作者训练轻量级估算器,从模型本身的隐藏状态预测必要性和效益——无需额外API调用。这些估算器成为控制器的基础,控制器决定是否需要工具调用,而不管模型”认为”什么。
在三个任务和六个模型上的实验表明,控制器在综合准确性和成本方面始终优于模型自我评估。
这对AI工程师意味着什么?
对于使用LangGraph、AutoGen或Anthropic工具计算机构建智能体的团队,该论文验证了一个常见直觉:不要让模型自行决定是否需要工具——设置一个门控层。 这种实践过去是启发式方法,现在有了正式框架和实证结果。
更广泛的影响也触及智能体经济:如果生产系统可以避免20-30%的无益工具调用,在每日百万请求的规模下,仅减少API消费就能节省可观的成本。
常见问题
- 「是否调用」框架研究什么?
- 该框架研究LLM智能体何时需要、何时不需要调用外部工具(网络搜索、计算器、数据库)。它区分模型的自我评估(「我认为我需要它」)和工具调用对答案准确性的实际效益。
- 工具调用评估的三个维度是什么?
- 必要性(是否根本需要该工具?)、效益(是否改善结果?)和成本可接受性(延迟/成本是否合理?)。三者都必须为正才使工具调用合理。
- 作者发现了模型自我评估的什么问题?
- 模型认为有用的工具与实际提高准确性的工具之间存在显著分歧。模型有时调用对其没有帮助的工具(尤其是引入嘈杂信息的网络搜索),有时错过本来有用的工具。