GitHub Copilot harness：供应商级别，更少token

GitHub Copilot 智能体 harness 是为模型提供工具和执行循环以实现自主编程的层级。GitHub 在 Claude Sonnet 4.6、Claude Opus 4.7、GPT-5.4 和 GPT-5.5 四款模型上通过五项基准测试，验证其任务完成率达到模型厂商 harness 水平，且在大多数配置下 token 消耗更低，并支持 20 余款前沿模型。

Copilot harness 与供应商 harness 的性能对比如何？

GitHub 发布了对自家 Copilot 智能体 harness 的评估——这一层级为模型提供工具、上下文和执行循环，使其能自主解决编程任务。测试覆盖 Claude Sonnet 4.6、Claude Opus 4.7、GPT-5.4 和 GPT-5.5，通过五项基准进行。核心发现：Copilot harness 在大多数配置下以更低的 token 消耗，实现了与模型厂商 harness 相当的任务完成率。

基准测试设置

五项基准覆盖不同类型的任务：SWE-bench Verified（500 项任务）、SWE-bench Pro（复杂多步骤任务）、SkillsBench、TerminalBench 和 Win-Hill。SWE-bench Verified 测量在软件仓库中解决真实 GitHub Issue 的能力。Copilot harness 目前支持 20 余款前沿模型，包括 GPT、Claude、Gemini、微软 MAI 系列模型及开源选项。

各模型结果

GPT 系列模型性价比最强（分数与成本之比），而 Claude Opus 4.7 以更高价格实现了最高解决率。GitHub 提醒注意随机波动：各模型在 TerminalBench 上的差异通常在单次运行 ±1σ 的随机方差范围内。换言之，单次测试不足以排名——需要重复测量。

对开发者的意义

对团队而言，结论是：模型选择应与任务类型和预算挂钩，而非追求单一最优模型。在相同完成率下消耗更少 token，意味着 Copilot harness 可降低智能体编程成本。结果同时强调，基准数字应结合置信区间解读，而非视为绝对排名。

常见问题

什么是智能体 harness？

智能体 harness 是为模型提供工具、上下文和执行循环以自主完成编程任务的层级；GitHub Copilot 在 20 余款模型上使用自有 harness。

测试了哪些模型？

Claude Sonnet 4.6、Claude Opus 4.7、GPT-5.4 和 GPT-5.5，通过五项基准测试，包括含 500 项任务的 SWE-bench Verified。

哪款模型性价比最高？

GPT 系列模型性价比最佳，而 Claude Opus 4.7 以更高价格实现了最高解决率。

GitHub: Copilot 智能体 harness 在 20 余款前沿模型上达到供应商 harness 水平，且 token 消耗更低

Copilot harness 与供应商 harness 的性能对比如何？

基准测试设置

各模型结果

对开发者的意义

常见问题

来源

相关新闻