GitHub Copilot 하니스: 벤더 수준, 토큰 절약

GitHub Copilot 에이전트 하니스는 모델에 자율 코딩을 위한 도구와 실행 루프를 제공하는 레이어입니다. GitHub는 Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4, GPT-5.5를 5개 벤치마크로 테스트하여, 대부분의 구성에서 모델 벤더 하니스 수준의 작업 완료율을 더 적은 토큰 사용량으로 달성하며 20개 이상의 프론티어 모델을 지원함을 확인했습니다.

Copilot 하니스는 벤더 하니스와 어떻게 비교되나요?

GitHub는 자체 Copilot 에이전트 하니스 — 모델에 코딩 작업을 자율적으로 해결하기 위한 도구, 컨텍스트, 실행 루프를 제공하는 레이어 — 의 평가 결과를 발표했습니다. Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4, GPT-5.5를 5개 벤치마크로 테스트했습니다. 주요 발견: Copilot 하니스는 대부분의 구성에서 모델 제조사 하니스 수준의 작업 완료율을 더 적은 토큰 사용량으로 달성합니다.

벤치마크 구성

5개 벤치마크는 다양한 유형의 작업을 다룹니다: SWE-bench Verified(500개 작업), SWE-bench Pro(복잡한 다단계 작업), SkillsBench, TerminalBench, Win-Hill. SWE-bench Verified는 소프트웨어 저장소의 실제 GitHub 이슈 해결을 측정합니다. Copilot 하니스는 현재 GPT, Claude, Gemini, 마이크로소프트 MAI 모델 및 오픈소스 옵션을 포함한 20개 이상의 프론티어 모델을 지원합니다.

모델별 결과

GPT 모델은 최고의 비용 효율성(결과 대비 비용 비율)을 보였으며, Claude Opus 4.7은 프리미엄 가격으로 가장 높은 해결률을 달성했습니다. GitHub는 변동성에 대해 경고합니다: TerminalBench에서 모델 간 차이는 개별 실행의 확률적 분산 ±1σ 내에 있는 경우가 많습니다. 즉, 한 번의 시도만으로는 순위를 매기기에 충분하지 않으며 반복 측정이 필요합니다.

개발자에게 의미하는 바

팀에게 전달되는 메시지는 모델 선택을 단일 최고 모델이 아닌 작업 유형과 예산에 연결해야 한다는 것입니다. 동일한 완료율에서 더 적은 토큰 사용은 Copilot 하니스가 에이전트 코딩 비용을 절감할 수 있음을 의미합니다. 결과는 또한 벤치마크 수치를 절대적인 순위가 아닌 신뢰 구간과 함께 해석해야 함을 강조합니다.

자주 묻는 질문

에이전트 하니스란 무엇인가요?

에이전트 하니스는 모델에 도구, 컨텍스트, 실행 루프를 제공하여 코딩 작업을 자율적으로 해결할 수 있게 하는 레이어입니다. GitHub Copilot은 자체 하니스를 20개 이상의 모델에 걸쳐 사용합니다.

어떤 모델이 테스트되었나요?

Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4, GPT-5.5가 SWE-bench Verified 500개 작업을 포함한 5개 벤치마크로 테스트되었습니다.

가장 비용 효율적인 모델은 무엇이었나요?

GPT 모델이 최고의 비용 효율성을 보였으며, Claude Opus 4.7은 프리미엄 가격으로 가장 높은 해결률을 달성했습니다.

GitHub: Copilot 에이전트 하니스, 20개 이상의 프론티어 모델에서 벤더 하니스 수준 달성 및 토큰 사용량 절감

Copilot 하니스는 벤더 하니스와 어떻게 비교되나요?

벤치마크 구성

모델별 결과

개발자에게 의미하는 바

자주 묻는 질문

출처

관련 뉴스