🟡 🏥 实践应用 发布于: · 1 分钟阅读 ·

GitHub: Copilot 智能体 harness 在 20 余款前沿模型上达到供应商 harness 水平,且 token 消耗更低

编辑插图:屏幕上并排显示性能和 token 对比柱状图,无文字无人脸

GitHub Copilot 智能体 harness 是为模型提供工具和执行循环以实现自主编程的层级。GitHub 在 Claude Sonnet 4.6、Claude Opus 4.7、GPT-5.4 和 GPT-5.5 四款模型上通过五项基准测试,验证其任务完成率达到模型厂商 harness 水平,且在大多数配置下 token 消耗更低,并支持 20 余款前沿模型。

🤖

本文由人工智能基于一手来源生成。

Copilot harness 与供应商 harness 的性能对比如何?

GitHub 发布了对自家 Copilot 智能体 harness 的评估——这一层级为模型提供工具、上下文和执行循环,使其能自主解决编程任务。测试覆盖 Claude Sonnet 4.6、Claude Opus 4.7、GPT-5.4 和 GPT-5.5,通过五项基准进行。核心发现:Copilot harness 在大多数配置下以更低的 token 消耗,实现了与模型厂商 harness 相当的任务完成率。

基准测试设置

五项基准覆盖不同类型的任务:SWE-bench Verified(500 项任务)、SWE-bench Pro(复杂多步骤任务)、SkillsBench、TerminalBench 和 Win-Hill。SWE-bench Verified 测量在软件仓库中解决真实 GitHub Issue 的能力。Copilot harness 目前支持 20 余款前沿模型,包括 GPT、Claude、Gemini、微软 MAI 系列模型及开源选项。

各模型结果

GPT 系列模型性价比最强(分数与成本之比),而 Claude Opus 4.7 以更高价格实现了最高解决率。GitHub 提醒注意随机波动:各模型在 TerminalBench 上的差异通常在单次运行 ±1σ 的随机方差范围内。换言之,单次测试不足以排名——需要重复测量。

对开发者的意义

对团队而言,结论是:模型选择应与任务类型和预算挂钩,而非追求单一最优模型。在相同完成率下消耗更少 token,意味着 Copilot harness 可降低智能体编程成本。结果同时强调,基准数字应结合置信区间解读,而非视为绝对排名。

常见问题

什么是智能体 harness?
智能体 harness 是为模型提供工具、上下文和执行循环以自主完成编程任务的层级;GitHub Copilot 在 20 余款模型上使用自有 harness。
测试了哪些模型?
Claude Sonnet 4.6、Claude Opus 4.7、GPT-5.4 和 GPT-5.5,通过五项基准测试,包括含 500 项任务的 SWE-bench Verified。
哪款模型性价比最高?
GPT 系列模型性价比最佳,而 Claude Opus 4.7 以更高价格实现了最高解决率。