GitHub: Copilot agentic harness dostiže razinu vendor-harnessa uz manju potrošnju tokena kroz 20+ frontier modela
GitHub Copilot agentic harness je sloj koji modelu daje alate i petlju izvršavanja za autonomno kodiranje. GitHub ga je testirao na modelima Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 i GPT-5.5 kroz pet benchmarka te utvrdio da postiže stope dovršavanja zadataka na razini harnessa proizvođača uz nižu potrošnju tokena, uz podršku za više od 20 frontier modela.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Kako se Copilot harness mjeri protiv vendor-harnessa?
GitHub je objavio evaluaciju vlastitog Copilot agentic harnessa — sloja koji modelu daje alate, kontekst i petlju izvršavanja za autonomno rješavanje zadataka kodiranja. Testirani su Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 i GPT-5.5 kroz pet benchmarka. Ključni nalaz: Copilot harness postiže stope dovršavanja zadataka na razini harnessa proizvođača modela uz nižu potrošnju tokena u većini konfiguracija.
Benchmark postava
Pet benchmarka pokriva različite vrste posla: SWE-bench Verified (500 zadataka), SWE-bench Pro (složeni višekoračni zadaci), SkillsBench, TerminalBench i Win-Hill. SWE-bench Verified mjeri rješavanje stvarnih GitHub issuea u softverskim repozitorijima. Copilot harness sada podržava više od 20 frontier modela, uključujući GPT, Claude, Gemini, Microsoftove MAI modele te open-source opcije.
Rezultati po modelima
GPT modeli pokazali su najjaču isplativost (omjer rezultata i cijene), dok je Claude Opus 4.7 postigao najvišu stopu rješavanja uz premium cijenu. GitHub upozorava na varijabilnost: razlike između modela na TerminalBenchu često su unutar stohastičke varijance od ±1σ između pojedinih pokretanja. Drugim riječima, jedan pokušaj nije dovoljan za rangiranje — potrebna su ponovljena mjerenja.
Što to znači za developere
Za timove poruka je da izbor modela treba vezati uz vrstu zadatka i proračun, a ne uz jedan najbolji model. Niža potrošnja tokena uz istu stopu dovršavanja znači da Copilot harness može sniziti trošak agentskog kodiranja. Rezultati također naglašavaju da benchmark brojke treba čitati s rasponom pouzdanosti, ne kao apsolutne ljestvice.
Česta pitanja
- Što je agentic harness?
- Agentic harness je sloj koji modelu daje alate, kontekst i petlju izvršavanja kako bi autonomno rješavao zadatke kodiranja; GitHub Copilot koristi vlastiti harness preko 20+ modela.
- Koji su modeli testirani?
- Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 i GPT-5.5, kroz pet benchmarka uključujući SWE-bench Verified s 500 zadataka.
- Koji je model bio najisplativiji?
- GPT modeli pokazali su najbolju isplativost, dok je Claude Opus 4.7 postigao najvišu stopu rješavanja uz premium cijenu.
Povezane vijesti
Anthropic: Economic Index otkriva ritmove i obrasce korištenja AI-ja kroz dan
arXiv:2606.27009: Semantičko rano zaustavljanje smanjuje trošak agentskih petlji za 38%
arXiv:2606.25524: Cliff Tokens — pojedinačni tokeni koji okidaju neuspjeh u matematičkom reasoningu