GitHub: Copilot agenticハーネスが20以上のフロンティアモデルにわたってベンダーハーネス水準の性能を達成し、より少ないトークン消費を実現
GitHub Copilot agenticハーネスは、モデルにツールと実行ループを提供して自律的なコーディングを可能にするレイヤーです。GitHubはClaude Sonnet 4.6、Claude Opus 4.7、GPT-5.4、GPT-5.5を5つのベンチマークでテストし、多くの構成においてベンダーハーネス水準のタスク完了率をより少ないトークン消費で達成することを確認しました。20以上のフロンティアモデルをサポートしています。
この記事はAIにより一次情報源から生成されました。
Copilotハーネスはベンダーハーネスとどのように比較されますか?
GitHubは自社のCopilot agenticハーネスの評価を公開しました。このハーネスは、モデルにツール・コンテキスト・実行ループを提供してコーディングタスクを自律的に解決するためのレイヤーです。Claude Sonnet 4.6、Claude Opus 4.7、GPT-5.4、GPT-5.5が5つのベンチマークでテストされました。主な発見:Copilotハーネスは、多くの構成においてモデルメーカーのハーネス水準のタスク完了率をより少ないトークン消費で達成しています。
ベンチマーク構成
5つのベンチマークは異なる種類の作業をカバーしています:SWE-bench Verified(500タスク)、SWE-bench Pro(複雑なマルチステップタスク)、SkillsBench、TerminalBench、Win-Hill。SWE-bench Verifiedはソフトウェアリポジトリの実際のGitHub issueの解決能力を測定します。Copilotハーネスは現在、GPT、Claude、Gemini、MicrosoftのMAIモデル、オープンソースオプションを含む20以上のフロンティアモデルをサポートしています。
モデル別結果
GPTモデルが最も高いコスト効率(スコアと価格の比率)を示し、Claude Opus 4.7はプレミアム価格で最高の解決率を達成しました。GitHubはVariabilityについて警告しています:TerminalBenchでのモデル間の差異は、個々の実行における±1σの確率的分散内に収まることが多いです。言い換えると、1回の試行ではランキングを確定できず、繰り返し測定が必要です。
開発者へのメッセージ
チームへのメッセージは、一つの最優秀モデルに固執するのではなく、タスクの種類と予算に合わせてモデルを選ぶべきだということです。同じ完了率でのトークン消費の削減は、Copilotハーネスがエージェント型コーディングのコストを下げる可能性を示します。また結果は、ベンチマークの数値を絶対的なランキングではなく信頼区間を伴って読む必要があることを強調しています。
よくある質問
- agenticハーネスとは何ですか?
- agenticハーネスは、モデルにツール・コンテキスト・実行ループを提供してコーディングタスクを自律的に解決できるようにするレイヤーです。GitHub Copilotは20以上のモデルで独自のハーネスを使用しています。
- テストされたモデルは何ですか?
- Claude Sonnet 4.6、Claude Opus 4.7、GPT-5.4、GPT-5.5が、SWE-bench Verifiedの500タスクを含む5つのベンチマークでテストされました。
- 最もコスト効率が高いモデルはどれですか?
- GPTモデルが最も高いコスト効率(スコアと価格の比率)を示し、Claude Opus 4.7はプレミアム価格で最高の解決率を達成しました。