GitHub Copilot Harness: Vendor-Niveau, weniger Token

Der GitHub Copilot Agentic Harness ist eine Schicht, die dem Modell Werkzeuge und eine Ausführungsschleife für autonomes Coding bereitstellt. GitHub testete ihn mit Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 und GPT-5.5 in fünf Benchmarks und stellte fest, dass er Aufgabenabschlussraten auf Vendor-Harness-Niveau bei geringerem Token-Verbrauch erzielt und über 20 Frontier-Modelle unterstützt.

Wie misst sich der Copilot Harness am Vendor-Harness?

GitHub hat eine Evaluierung des eigenen Copilot Agentic Harness veröffentlicht – einer Schicht, die dem Modell Werkzeuge, Kontext und eine Ausführungsschleife für autonomes Coding gibt. Getestet wurden Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 und GPT-5.5 in fünf Benchmarks. Das Kernergebnis: Der Copilot Harness erreicht Aufgabenabschlussraten auf Vendor-Harness-Niveau bei geringerem Token-Verbrauch in den meisten Konfigurationen.

Benchmark-Aufbau

Fünf Benchmarks decken verschiedene Aufgabentypen ab: SWE-bench Verified (500 Aufgaben), SWE-bench Pro (komplexe mehrstufige Aufgaben), SkillsBench, TerminalBench und Win-Hill. SWE-bench Verified misst die Lösung echter GitHub Issues in Software-Repositories. Der Copilot Harness unterstützt jetzt mehr als 20 Frontier-Modelle, darunter GPT, Claude, Gemini, Microsofts MAI-Modelle und Open-Source-Optionen.

Ergebnisse nach Modellen

GPT-Modelle zeigten die beste Kosteneffizienz (Verhältnis von Ergebnis zu Preis), während Claude Opus 4.7 die höchste Lösungsrate bei Premium-Preis erzielte. GitHub warnt vor Variabilität: Unterschiede zwischen Modellen auf TerminalBench liegen oft innerhalb der stochastischen Varianz von ±1σ zwischen einzelnen Läufen. Mit anderen Worten: Ein einzelner Versuch reicht nicht für eine Rangliste – wiederholte Messungen sind nötig.

Was das für Entwickler bedeutet

Für Teams lautet die Botschaft: Die Modellwahl sollte an den Aufgabentyp und das Budget geknüpft werden, nicht an ein einziges bestes Modell. Geringerer Token-Verbrauch bei gleicher Abschlussrate bedeutet, dass der Copilot Harness die Kosten für agentisches Coding senken kann. Die Ergebnisse unterstreichen auch, dass Benchmark-Zahlen mit einem Konfidenzintervall gelesen werden sollten, nicht als absolute Ranglisten.

Häufig gestellte Fragen

Was ist ein Agentic Harness?

Ein Agentic Harness ist eine Schicht, die dem Modell Werkzeuge, Kontext und eine Ausführungsschleife gibt, damit es Coding-Aufgaben autonom löst; GitHub Copilot nutzt seinen eigenen Harness über 20+ Modelle.

Welche Modelle wurden getestet?

Claude Sonnet 4.6, Claude Opus 4.7, GPT-5.4 und GPT-5.5 in fünf Benchmarks, darunter SWE-bench Verified mit 500 Aufgaben.

Welches Modell war am kosteneffizientesten?

GPT-Modelle zeigten das beste Kosten-Leistungs-Verhältnis, während Claude Opus 4.7 die höchste Lösungsrate bei Premium-Preis erzielte.

GitHub: Copilot Agentic Harness erreicht Vendor-Niveau mit geringerem Token-Verbrauch über 20+ Frontier-Modelle

Wie misst sich der Copilot Harness am Vendor-Harness?

Benchmark-Aufbau

Ergebnisse nach Modellen

Was das für Entwickler bedeutet

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten