arXiv: Benchmarks hängen vom Inferenz-Compute ab

Eine Studie zeigt, dass Benchmark-Ergebnisse stark vom Messprotokoll abhängen: 12 Frontier-Modelle wurden auf 7 anspruchsvollen Tests aus Software, Mathematik, Medizin und Cybersicherheit getestet. Ein größeres Token-Budget verbessert die Ergebnisse bei FrontierMath, Humanity's Last Exam und TerminalBench erheblich, und Modelle rangieren je nach Inferenz-Compute-Budget unterschiedlich. Die Autoren empfehlen, Fähigkeiten als Funktion des Inferenz-Zeit-Computebudgets zu berichten, nicht als eine einzelne Zahl.

Ein neues Preprint warnt, dass Benchmark-Ergebnisse stark vom Messprotokoll abhängen, was gängige Frontier-Modell-Ranglisten in Frage stellt.

Was haben die Autoren getestet?

Die Studie testet 12 Frontier-Modelle auf 7 anspruchsvollen Benchmarks aus den Bereichen Software, Mathematik, Medizin und Cybersicherheit. Die Schlüsselvariable ist Inferenz-Compute — die Menge an Berechnungen, also das Token-Budget, das das Modell für die Lösung einer Aufgabe verwenden darf. Standardauswertungen fixieren dieses Budget üblicherweise, aber die Studie zeigt, dass es genau das Entscheidende ist.

Was ändert sich mit einem größeren Budget?

Ein größeres Token-Budget verbessert die Ergebnisse erheblich bei FrontierMath, Humanity’s Last Exam, TerminalBench und Cybersicherheitstests. Noch wichtiger: Modelle rangieren unterschiedlich je nach diesem Budget — das Modell, das mit kleinem Budget am besten ist, muss es mit großem Budget nicht sein. Daher unterschätzen Festbudget-Evaluierungen systematisch die tatsächlichen Fähigkeiten.

Warum ist das für die Modellbewertung wichtig?

Die Autoren empfehlen, die Modellkapazität als Funktion des Inferenz-Zeit-Computebudgets zu berichten, nicht als eine einzelne Zahl. Der Befund ist auch für Sicherheits- und Policy-Bewertungen relevant: Die Evaluierung von Modellen ohne Kontrolle des Rechenbudgets kann zu unzuverlässigen und irreführenden Rankings führen.

Häufig gestellte Fragen

Was ist der Hauptbefund der Studie?

Ergebnisse und Ranking von Frontier-Modellen hängen erheblich vom Inferenz-Compute-Budget ab, sodass Festbudget-Evaluierungen Fähigkeiten unterschätzen.

Was empfehlen die Autoren?

Modellkapazität als Funktion des Inferenz-Zeit-Computebudgets berichten, nicht als eine einzelne Zahl.

arXiv:2606.17930: Benchmark-Ergebnisse sind protokollabhängig — Inferenz-Compute verändert das Ranking von Frontier-Modellen

Was haben die Autoren getestet?

Was ändert sich mit einem größeren Budget?

Warum ist das für die Modellbewertung wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten