GitHub Copilot harness: razina vendora, manje tokena

GitHub Copilot agentic harness je sloj koji modelu daje alate i petlju izvršavanja za autonomno kodiranje. GitHub ga je testirao na modelima Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 i GPT-5.5 kroz pet benchmarka te utvrdio da postiže stope dovršavanja zadataka na razini harnessa proizvođača uz nižu potrošnju tokena, uz podršku za više od 20 frontier modela.

Kako se Copilot harness mjeri protiv vendor-harnessa?

GitHub je objavio evaluaciju vlastitog Copilot agentic harnessa — sloja koji modelu daje alate, kontekst i petlju izvršavanja za autonomno rješavanje zadataka kodiranja. Testirani su Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 i GPT-5.5 kroz pet benchmarka. Ključni nalaz: Copilot harness postiže stope dovršavanja zadataka na razini harnessa proizvođača modela uz nižu potrošnju tokena u većini konfiguracija.

Benchmark postava

Pet benchmarka pokriva različite vrste posla: SWE-bench Verified (500 zadataka), SWE-bench Pro (složeni višekoračni zadaci), SkillsBench, TerminalBench i Win-Hill. SWE-bench Verified mjeri rješavanje stvarnih GitHub issuea u softverskim repozitorijima. Copilot harness sada podržava više od 20 frontier modela, uključujući GPT, Claude, Gemini, Microsoftove MAI modele te open-source opcije.

Rezultati po modelima

GPT modeli pokazali su najjaču isplativost (omjer rezultata i cijene), dok je Claude Opus 4.7 postigao najvišu stopu rješavanja uz premium cijenu. GitHub upozorava na varijabilnost: razlike između modela na TerminalBenchu često su unutar stohastičke varijance od ±1σ između pojedinih pokretanja. Drugim riječima, jedan pokušaj nije dovoljan za rangiranje — potrebna su ponovljena mjerenja.

Što to znači za developere

Za timove poruka je da izbor modela treba vezati uz vrstu zadatka i proračun, a ne uz jedan najbolji model. Niža potrošnja tokena uz istu stopu dovršavanja znači da Copilot harness može sniziti trošak agentskog kodiranja. Rezultati također naglašavaju da benchmark brojke treba čitati s rasponom pouzdanosti, ne kao apsolutne ljestvice.

Česta pitanja

Što je agentic harness?

Agentic harness je sloj koji modelu daje alate, kontekst i petlju izvršavanja kako bi autonomno rješavao zadatke kodiranja; GitHub Copilot koristi vlastiti harness preko 20+ modela.

Koji su modeli testirani?

Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 i GPT-5.5, kroz pet benchmarka uključujući SWE-bench Verified s 500 zadataka.

Koji je model bio najisplativiji?

GPT modeli pokazali su najbolju isplativost, dok je Claude Opus 4.7 postigao najvišu stopu rješavanja uz premium cijenu.

GitHub: Copilot agentic harness dostiže razinu vendor-harnessa uz manju potrošnju tokena kroz 20+ frontier modela

Kako se Copilot harness mjeri protiv vendor-harnessa?

Benchmark postava

Rezultati po modelima

Što to znači za developere

Česta pitanja

Izvori

Povezane vijesti