Wie groß ist der konkrete Einfluss der Infrastruktur auf die Ergebnisse?

Bei Terminal-Bench 2.0 beträgt der Unterschied zwischen der best- und am schlechtesten ausgestatteten Konfiguration 6 Prozentpunkte (p < 0,01). Bei SWE-bench ist der Effekt geringer — 1,54 Prozentpunkte über eine 5-fache RAM-Variation.

Was ist das optimale Ressourcenniveau?

Ein 3-facher Ressourcen-Headroom ist der Sweet Spot — er reduziert Infrastruktur-Fehler von 5,8 auf 2,1 Prozent (p < 0,001) und erhält die Ergebnisstabilität. Strikte Begrenzung auf exakte Werte erzeugt zu viel Rauschen.

Welche Schlussfolgerung ziehen die Autoren für die KI-Community?

Unterschiede unter 3 Prozentpunkten auf Bestenlisten sind statistisch nicht signifikant, ohne eine dokumentierte und abgeglichene Infrastrukturkonfiguration. Die Eval-Konfiguration muss als erstklassige experimentelle Variable behandelt werden.

Anthropic: Infrastruktur-Rauschen verschiebt agentische Benchmark-Ergebnisse um bis zu 6 Prozentpunkte

Q: Was ist das optimale Ressourcenniveau?

Ein 3-facher Ressourcen-Headroom ist der Sweet Spot — er reduziert Infrastruktur-Fehler von 5,8 auf 2,1 Prozent (p < 0,001) und erhält die Ergebnisstabilität. Strikte Begrenzung auf exakte Werte erzeugt zu viel Rauschen.

Q: Welche Schlussfolgerung ziehen die Autoren für die KI-Community?

Unterschiede unter 3 Prozentpunkten auf Bestenlisten sind statistisch nicht signifikant, ohne eine dokumentierte und abgeglichene Infrastrukturkonfiguration. Die Eval-Konfiguration muss als erstklassige experimentelle Variable behandelt werden.

Ein Team von Anthropic-Forschern unter der Leitung von Gian Segato, mit Beiträgen von Nicholas Carlini, Jeremy Hadfield, Mike Merrill und Alex Shaw, hat am 17. April 2026 eine detaillierte Studie mit dem Titel “Quantifying Infrastructure Noise in Agentic Coding Evals” veröffentlicht. Die Ergebnisse enthüllen ein ernstes methodologisches Problem, das die Interpretation nahezu jedes KI-Benchmarks beeinflusst.

Hauptbefund

Die Infrastrukturkonfiguration — konkret die Menge des zugewiesenen RAMs und des CPU-Headrooms — kann agentische Coding-Benchmark-Ergebnisse um 6 Prozentpunkte verschieben. Das ist mehr als der aktuelle Unterschied zwischen den Top-Modellen auf den wichtigsten Bestenlisten.

Die Forscher formulieren eine direkte Aussage: „The gap between the most- and least-resourced setups on Terminal-Bench 2.0 was 6 percentage points (p < 0.01).”

Getestete Benchmarks

Die Studie verwendete zwei Standardtests:

Terminal-Bench 2.0 — Hauptfokus, misst agentische Coding-Fähigkeit in einer Terminal-Umgebung
SWE-bench — Kreuzvalidierung an 227 Aufgaben

Die Ergebnisse sind asymmetrisch: Terminal-Bench 2.0 zeigt einen starken Effekt (6 PP), während SWE-bench weniger empfindlich ist (1,54 PP über eine 5-fache RAM-Variation). Dies deutet darauf hin, dass die spezifische Struktur von Aufgaben und Werkzeugen beeinflusst, wie „verrauscht” ein Benchmark ist.

Strikte Begrenzung verschlimmert das Problem

Die Intuition könnte sein: „Wir geben einfach allen die gleichen Ressourcen und lösen das Problem.” Aber die Daten zeigen das Gegenteil:

Strikte Begrenzung (exakter fester Wert für alle): Infrastruktur-Fehlerrate 5,8 %
Unbegrenzte Ressourcen (ohne Limit): Infrastruktur-Fehlerrate 0,5 %

Mit anderen Worten: strenge Einheitlichkeit erhöht das Rauschen tatsächlich, anstatt es zu reduzieren, weil Grenzaufgaben, die das Limit überschreiten, fehlschlagen.

Sweet Spot: 3-facher Ressourcen-Headroom. Dieses Design reduziert Infrastrukturfehler auf 2,1 Prozent (p < 0,001) und hält gleichzeitig die Ergebnisstabilität aufrecht. Die Idee ist, dass jede Aufgabe ein „Floor” (garantiert) und ein „Ceiling” (Kill-Schwellenwert) hat, anstatt eines einzelnen fixierten Wertes.

Rauschboden und Leaderboard-Interpretation

Die schärfste Botschaft der Autoren richtet sich an die KI-Community, die kleine Unterschiede zwischen Modellen kommentiert:

„Leaderboard differences below 3 percentage points deserve skepticism until the eval configuration is documented and matched.”

Der Grund ist statistischer Natur: Binomiale Konfidenzintervalle decken bereits unabhängig von jedem Infrastruktureffekt 1–2 Prozentpunkte ab. Wenn man dazu noch Infrastruktur-Confounder von weiteren 6 PP addiert, beträgt die natürliche Messunsicherheit in den schlimmsten Fällen etwa 8 PP.

Fünf konkrete Empfehlungen

Die Forscher schließen mit einer konkreten Liste für Evaluatoren:

Sowohl eine garantierte Zuteilung als auch einen harten Kill-Schwellenwert pro Aufgabe angeben (keinen einzelnen fixierten Wert)
Die Lücke kalibrieren, sodass Floor- und Ceiling-Scores innerhalb des statistischen Rauschens fallen
Die Durchsetzungsmethodik explizit berichten
Ressourcenspezifikationen dokumentieren als erstklassige experimentelle Variablen
Evaluierungen über mehrere Tage durchführen, um zeitliches Rauschen (API-Latenz, Cluster-Gesundheitsschwankungen) auszumitteln

Warum das für die Industrie wichtig ist

Die Kernaussage der Autoren: „A 2-point lead on a leaderboard might reflect a genuine capability difference, or it might reflect that one eval ran on beefier hardware, or even at a luckier time of day.”

Für die KI-Community bedeutet dies die Notwendigkeit einer strukturierteren Infrastrukturdokumentation bei der Veröffentlichung von Ergebnissen. Benchmarks, die ohne präzise RAM-, CPU-, API-Header- und Zeitfensterkonfiguration veröffentlicht werden — was bei den meisten der Fall ist — tragen Rauschen, das nominale Qualitätsunterschiede zwischen Modellen vollständig überdecken kann.

Anthropics Arbeit erscheint zu einem Zeitpunkt, an dem Unterschiede zwischen Modellen in einzelnen Prozentpunkten gemessen werden und das Marketing diese Unterschiede als revolutionär darstellt. Die Studie zeigt, warum hier erheblich mehr Vorsicht geboten ist.