🟡 🏥 实践应用 2026年5月7日星期四 · 2 分钟阅读 ·

GitHub: 优化智能体工作流实现19%至62%的Token节省

Editorial illustration: 优化智能体工作流实现19%至62%的Token节省

GitHub对生产环境智能体工作流进行监测,发现三大Token浪费来源:不必要的MCP工具、可确定性获取的数据以及错误配置的Bash规则。经优化,各工作流实现了19%至62%的Token节省。

🤖

本文由人工智能基于一手来源生成。

GitHub工程团队于2026年5月7日发布了对自身生产环境智能体工作流的分析,提供了Token损耗的具体数据及优化措施。这是一个透明展示成本的罕见案例,对构建类似系统的团队颇具参考价值。

三大Token浪费来源

第一,不必要的MCP工具Schema。 包含40个工具的完整GitHub MCP服务器每次调用会增加10-15 KB上下文,而大多数工作流只使用其中几个工具。通过从MCP配置中移除未使用的工具,每次调用的上下文大小减少了8-12 KB,每次运行节省数千个Token。MCP(模型上下文协议)是工具向语言模型暴露Schema的标准。

第二,可确定性获取的数据。 许多智能体步骤是不需要推理的读取操作——例如获取Issue元数据。将此类获取操作移至智能体流程前的CLI步骤,在模型启动之前执行,这些调用就完全脱离了LLM推理循环。

第三,错误配置的规则。 Bash允许列表中一行配置错误导致了64步回退循环——工作流不得不手动重建编译器输出,而无法调用相应工具。

各工作流具体节省情况

五个优化后的工作流取得了以下成果:Auto-Triage Issues减少62%(超过109次运行),Security Guard减少43%,Smoke Claude减少59%,Daily Compiler Quality减少19%,Community Attribution减少37%。仅优化Auto-Triage一项,在观测期内就节省了约780万有效Token。

什么是有效Token指标?

GitHub开发了公式ET = m × (1.0 × I + 0.1 × C + 4.0 × O),用于跨不同模型层级标准化成本。I为输入Token,C为缓存读取Token,O为输出Token,m为模型倍增系数。输出Token权重最高(4×),因为它是最昂贵的类型,而缓存读取Token仅为0.1×。该指标可直接比较使用不同模型和不同缓存模式的工作流——团队无需按模型单独追踪美元成本。

常见问题

什么是有效Token指标?
公式ET = m × (1.0 × I + 0.1 × C + 4.0 × O)按成本对Token类型加权:输入权重1×、缓存读取0.1×、输出4×;m为模型倍增系数。
MCP工具的Schema实际占多少空间?
包含40个工具的完整GitHub MCP服务器每次调用会增加10-15 KB上下文,减少到实际使用的工具可节省8-12 KB及每次运行数千个Token。
64步循环的例子是什么?
由于Bash允许列表中一行配置错误,某个工作流不得不手动重建编译器输出而无法调用相应工具,导致64步回退循环。