什么是MCP Tax，为何是个问题？

MCP Tax是指每轮对话中10到6万个token的隐性成本，由贪婪模式的schema注入引起——即将所有已注册工具的完整JSON schema在每次模型调用时全部注入上下文。这会膨胀KV缓存，当上下文利用率超过约70%的临界阈值时，推理质量会显著下降。

Tool Attention结合了哪三种技术？

Tool Attention结合了三种技术：通过嵌入相似度识别相关工具的意图-模式重叠（ISO）分数；检查前置条件和访问范围的状态感知门控函数；以及在上下文中保留紧凑摘要、仅为优先级最高的top-k工具加载完整JSON schema的两阶段懒加载器。

基准测试的具体结果如何？

在6个MCP服务器上配置120个工具的模拟环境中，Tool Attention将每轮token消耗从47,300减少至2,400，降幅达95%。上下文利用率从24%跃升至91%。作者注明这些指标来源于实测token数量和公开遥测数据，而非实时LLM智能体测试。

Tool Attention：MCP智能体工作流token减少95%

研究人员Anuj Sadani和Deepak Kumar于2026年4月23日在ArXiv上发表论文，解决了所谓的MCP Tax问题——贪婪模式的schema注入每轮消耗1至6万个token。他们的Tool Attention方法将消耗减少95%，上下文利用率从24%提升至91%。

研究人员Anuj Sadani和Deepak Kumar于2026年4月23日在ArXiv上发表了题为*「Tool Attention Is All You Need」*（arXiv:2604.21816）的论文，识别并解决了模型上下文协议（MCP）的一个严重结构性问题——所谓的MCP Tax。这是指在典型的多服务器MCP部署中，每轮对话简单”消耗”在工具schema注入上的1至6万个token隐性成本。

这篇论文发表于企业环境中MCP集成爆炸式增长的时刻，在这些环境中，一个智能体系统往往同时通过多个服务器管理数十种工具。这类配置此前存在隐性成本，同时破坏速度和推理质量。

MCP Tax究竟是什么？

作者将问题识别为贪婪模式schema注入——标准MCP模式会在每次模型调用时将所有已注册工具的完整JSON schema描述注入上下文，即使模型不会使用其中95%的工具。每轮token开销从1万到6万个token不等，取决于服务器数量和schema复杂度。

后果是双重的。首先，KV缓存膨胀，推理变慢且成本更高。其次，当上下文利用率超过约**70%**的临界阈值时，推理质量显著下降——这在有关”上下文衰退”现象的文献中有充分记录。

Tool Attention如何解决这个问题？

所提出的方法是一个位于智能体和MCP服务器之间的中间件层，结合了三个互补组件：

意图-模式重叠（ISO）分数 — 使用句子嵌入模型测量用户查询与每个工具描述之间的语义相似度，按相关性对工具进行排序。
状态感知门控函数 — 在将工具注入上下文之前检查前置条件和访问范围，确保需要认证或特定状态的工具在这些条件满足之前不会出现。
两阶段懒加载器 — 上下文中仅保留所有可用工具的紧凑摘要池，完整JSON schema描述仅为ISO分数最高的top-k工具加载。

这种方法类似于经验丰富的开发者的工作方式：脑中只记得”我能做什么”，只在确定要调用工具时才查阅API文档细节。

实际能节省多少？

作者在模拟了6个MCP服务器上120个工具的环境中进行了评估，该环境根据真实生产部署进行了校准。结果令人瞩目：每轮token消耗从47,300减少至2,400个，相当于95%的降幅。上下文利用率从24%提升至91%，意味着智能体现在可以处理更复杂的对话历史而不损失推理质量。

作者明确指出，预测指标来源于实测token数量结合公开遥测数据，而非实时LLM智能体测试。这是一个需要牢记的重要限制——生产环境中的实际降幅取决于ISO分数嵌入模型的质量和校准的真实性。

这对多智能体系统意味着什么？

论文的核心结论是：“协议层面的效率，而非原始上下文长度，才是可扩展智能体系统的约束瓶颈”。换言之，拥有百万token上下文的模型无法解决每轮对话浪费6万个token的问题。

对于在Claude、GPT或开源模型之上构建多智能体系统的开发团队，这篇论文提出了具体的架构变更建议：引入执行懒加载schema的中间件层，在同一智能体的连续调用之间实现KV缓存共享，并将实际上下文利用率作为主要指标，而非专注于上下文窗口容量。代码已在论文引用的GitHub仓库中提供。

arXiv:2604.21816：「Tool Attention Is All You Need」消除MCP Tax——智能体工作流每轮减少95%的token消耗

MCP Tax究竟是什么？

Tool Attention如何解决这个问题？

实际能节省多少？

这对多智能体系统意味着什么？

常见问题

来源

相关新闻