🟡 🏥 U praksi Objavljeno: · 2 min čitanja ·

GitHub: Copilot agentic harness dostiže razinu vendor-harnessa uz manju potrošnju tokena kroz 20+ frontier modela

Editorial ilustracija: usporedne trake performansi i tokena na zaslonu, bez teksta i lica

GitHub Copilot agentic harness je sloj koji modelu daje alate i petlju izvršavanja za autonomno kodiranje. GitHub ga je testirao na modelima Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 i GPT-5.5 kroz pet benchmarka te utvrdio da postiže stope dovršavanja zadataka na razini harnessa proizvođača uz nižu potrošnju tokena, uz podršku za više od 20 frontier modela.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Kako se Copilot harness mjeri protiv vendor-harnessa?

GitHub je objavio evaluaciju vlastitog Copilot agentic harnessa — sloja koji modelu daje alate, kontekst i petlju izvršavanja za autonomno rješavanje zadataka kodiranja. Testirani su Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 i GPT-5.5 kroz pet benchmarka. Ključni nalaz: Copilot harness postiže stope dovršavanja zadataka na razini harnessa proizvođača modela uz nižu potrošnju tokena u većini konfiguracija.

Benchmark postava

Pet benchmarka pokriva različite vrste posla: SWE-bench Verified (500 zadataka), SWE-bench Pro (složeni višekoračni zadaci), SkillsBench, TerminalBench i Win-Hill. SWE-bench Verified mjeri rješavanje stvarnih GitHub issuea u softverskim repozitorijima. Copilot harness sada podržava više od 20 frontier modela, uključujući GPT, Claude, Gemini, Microsoftove MAI modele te open-source opcije.

Rezultati po modelima

GPT modeli pokazali su najjaču isplativost (omjer rezultata i cijene), dok je Claude Opus 4.7 postigao najvišu stopu rješavanja uz premium cijenu. GitHub upozorava na varijabilnost: razlike između modela na TerminalBenchu često su unutar stohastičke varijance od ±1σ između pojedinih pokretanja. Drugim riječima, jedan pokušaj nije dovoljan za rangiranje — potrebna su ponovljena mjerenja.

Što to znači za developere

Za timove poruka je da izbor modela treba vezati uz vrstu zadatka i proračun, a ne uz jedan najbolji model. Niža potrošnja tokena uz istu stopu dovršavanja znači da Copilot harness može sniziti trošak agentskog kodiranja. Rezultati također naglašavaju da benchmark brojke treba čitati s rasponom pouzdanosti, ne kao apsolutne ljestvice.

Česta pitanja

Što je agentic harness?
Agentic harness je sloj koji modelu daje alate, kontekst i petlju izvršavanja kako bi autonomno rješavao zadatke kodiranja; GitHub Copilot koristi vlastiti harness preko 20+ modela.
Koji su modeli testirani?
Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 i GPT-5.5, kroz pet benchmarka uključujući SWE-bench Verified s 500 zadataka.
Koji je model bio najisplativiji?
GPT modeli pokazali su najbolju isplativost, dok je Claude Opus 4.7 postigao najvišu stopu rješavanja uz premium cijenu.