Anthropic: Infrastruktur-Rauschen verschiebt agentische Benchmark-Ergebnisse um bis zu 6 Prozentpunkte
Warum es wichtig ist
Forscher bei Anthropic haben nachgewiesen, dass die RAM-Konfiguration und der CPU-Headroom agentische Coding-Benchmark-Ergebnisse um 6 Prozentpunkte verschieben können — mehr als der Unterschied zwischen den Top-Modellen auf der Bestenliste. Getestet wurden Terminal-Bench 2.0 und SWE-bench. Empfehlung: Vorsprünge unter 3 Prozentpunkten sollten mit Skepsis betrachtet werden, bis die Eval-Konfiguration dokumentiert und abgeglichen ist.
Ein Team von Anthropic-Forschern unter der Leitung von Gian Segato, mit Beiträgen von Nicholas Carlini, Jeremy Hadfield, Mike Merrill und Alex Shaw, hat am 17. April 2026 eine detaillierte Studie mit dem Titel “Quantifying Infrastructure Noise in Agentic Coding Evals” veröffentlicht. Die Ergebnisse enthüllen ein ernstes methodologisches Problem, das die Interpretation nahezu jedes KI-Benchmarks beeinflusst.
Hauptbefund
Die Infrastrukturkonfiguration — konkret die Menge des zugewiesenen RAMs und des CPU-Headrooms — kann agentische Coding-Benchmark-Ergebnisse um 6 Prozentpunkte verschieben. Das ist mehr als der aktuelle Unterschied zwischen den Top-Modellen auf den wichtigsten Bestenlisten.
Die Forscher formulieren eine direkte Aussage: „The gap between the most- and least-resourced setups on Terminal-Bench 2.0 was 6 percentage points (p < 0.01).”
Getestete Benchmarks
Die Studie verwendete zwei Standardtests:
- Terminal-Bench 2.0 — Hauptfokus, misst agentische Coding-Fähigkeit in einer Terminal-Umgebung
- SWE-bench — Kreuzvalidierung an 227 Aufgaben
Die Ergebnisse sind asymmetrisch: Terminal-Bench 2.0 zeigt einen starken Effekt (6 PP), während SWE-bench weniger empfindlich ist (1,54 PP über eine 5-fache RAM-Variation). Dies deutet darauf hin, dass die spezifische Struktur von Aufgaben und Werkzeugen beeinflusst, wie „verrauscht” ein Benchmark ist.
Strikte Begrenzung verschlimmert das Problem
Die Intuition könnte sein: „Wir geben einfach allen die gleichen Ressourcen und lösen das Problem.” Aber die Daten zeigen das Gegenteil:
- Strikte Begrenzung (exakter fester Wert für alle): Infrastruktur-Fehlerrate 5,8 %
- Unbegrenzte Ressourcen (ohne Limit): Infrastruktur-Fehlerrate 0,5 %
Mit anderen Worten: strenge Einheitlichkeit erhöht das Rauschen tatsächlich, anstatt es zu reduzieren, weil Grenzaufgaben, die das Limit überschreiten, fehlschlagen.
Sweet Spot: 3-facher Ressourcen-Headroom. Dieses Design reduziert Infrastrukturfehler auf 2,1 Prozent (p < 0,001) und hält gleichzeitig die Ergebnisstabilität aufrecht. Die Idee ist, dass jede Aufgabe ein „Floor” (garantiert) und ein „Ceiling” (Kill-Schwellenwert) hat, anstatt eines einzelnen fixierten Wertes.
Rauschboden und Leaderboard-Interpretation
Die schärfste Botschaft der Autoren richtet sich an die KI-Community, die kleine Unterschiede zwischen Modellen kommentiert:
„Leaderboard differences below 3 percentage points deserve skepticism until the eval configuration is documented and matched.”
Der Grund ist statistischer Natur: Binomiale Konfidenzintervalle decken bereits unabhängig von jedem Infrastruktureffekt 1–2 Prozentpunkte ab. Wenn man dazu noch Infrastruktur-Confounder von weiteren 6 PP addiert, beträgt die natürliche Messunsicherheit in den schlimmsten Fällen etwa 8 PP.
Fünf konkrete Empfehlungen
Die Forscher schließen mit einer konkreten Liste für Evaluatoren:
- Sowohl eine garantierte Zuteilung als auch einen harten Kill-Schwellenwert pro Aufgabe angeben (keinen einzelnen fixierten Wert)
- Die Lücke kalibrieren, sodass Floor- und Ceiling-Scores innerhalb des statistischen Rauschens fallen
- Die Durchsetzungsmethodik explizit berichten
- Ressourcenspezifikationen dokumentieren als erstklassige experimentelle Variablen
- Evaluierungen über mehrere Tage durchführen, um zeitliches Rauschen (API-Latenz, Cluster-Gesundheitsschwankungen) auszumitteln
Warum das für die Industrie wichtig ist
Die Kernaussage der Autoren: „A 2-point lead on a leaderboard might reflect a genuine capability difference, or it might reflect that one eval ran on beefier hardware, or even at a luckier time of day.”
Für die KI-Community bedeutet dies die Notwendigkeit einer strukturierteren Infrastrukturdokumentation bei der Veröffentlichung von Ergebnissen. Benchmarks, die ohne präzise RAM-, CPU-, API-Header- und Zeitfensterkonfiguration veröffentlicht werden — was bei den meisten der Fall ist — tragen Rauschen, das nominale Qualitätsunterschiede zwischen Modellen vollständig überdecken kann.
Anthropics Arbeit erscheint zu einem Zeitpunkt, an dem Unterschiede zwischen Modellen in einzelnen Prozentpunkten gemessen werden und das Marketing diese Unterschiede als revolutionär darstellt. Die Studie zeigt, warum hier erheblich mehr Vorsicht geboten ist.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Anthropic und NEC bauen Japans größte KI-Ingenieursbelegschaft auf — Claude für 30.000 NEC-Mitarbeitende
AWS: Multimodale biologische Foundation-Modelle beschleunigen Arzneimittelentwicklung um 50 Prozent und Diagnostik um 90 Prozent
CNCF: Infrastrukturingenieur migrierte 60+ Kubernetes-Ressourcen in 30 Minuten mit Hilfe eines KI-Agenten