Eval-Kosten: GAIA 2,8 K$, HAL 40 K$, Agenten 2–3,5× Kompression

Die EvalEval Coalition (Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen) veröffentlichte am 29. April 2026 eine Analyse im HuggingFace-Blog, die zeigt, wie die Kosten für die Evaluierung von KI-Modellen explodiert sind. Ein einzelner GAIA-Lauf kostet 2.829 $, das HAL-Leaderboard 40.000 $ (k=8 Zuverlässigkeit 320.000 $), PaperBench rund 9.500 $ pro Agent. Statische Benchmarks komprimieren 100–200×, agentische nur 2–3,5× — eine Accountability-Barriere für unabhängige Auditoren.

Die EvalEval Coalition (Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen) veröffentlichte am 29. April 2026 eine detaillierte Analyse im HuggingFace-Blog, die die KI-Compute-Diskussion von Training auf Evaluierung verlagert — und zeigt, dass sich die Ökonomie umgekehrt hat.

Konkrete Kosten

Zahlen für einzelne Frontier-Modell-Evaluierungen im Jahr 2026:

Benchmark	Kosten
GAIA (Einzellauf)	2.829 $
Online Mind2Web (Browser-Use + Claude Sonnet 4)	1.577 $ für 40 % Genauigkeit
HAL (Holistic Agent Leaderboard, vollständig)	40.000 $ für 21.730 Rollouts
HAL mit 8-facher Zuverlässigkeit	~320.000 $
PaperBench (vollständig)	~9.500 $ pro Agent
The Well (vollständiger Durchlauf)	~9.600 $
MLE-Bench (1 Seed)	~5.500 $

Zum Vergleich: HELM (2022) kostete insgesamt rund 100.000 $ für alle Modelle über alle Szenarien. Im Jahr 2026 übersteigt ein einzelner Benchmark (HAL mit Zuverlässigkeit) diesen Betrag.

Benchmark-Kompression — was für statische funktioniert, funktioniert nicht für agentische

Typ	Max. Kompression	Ranking erhalten
Statische LLM-Benchmarks	100–200×	✓
Agentische Benchmarks	2–3,5×	Teilweise
Training-in-Loop	~1× (unmöglich)	✗

Flash-HELM, tinyBenchmarks und Anchor Points reduzieren statisches Eval erfolgreich auf 1 % der Größe ohne Rankingverlust. Für Agenten liefert nur Mittelschwerigkeit-Filterung 2–3,5× — mehrstufige Interaktionen können nicht einfach sub-gesamplet werden.

Accountability-Barriere

Vielleicht das wichtigste Argument des Artikels:

„Akademische Gruppen, KI-Sicherheitsinstitute und Journalisten stoßen nun bei dem Versuch, Frontier-Agenten unabhängig zu evaluieren, an eine Budgetbarriere vor einer technischen. Ein einzelner GAIA-Lauf kann das jährliche Reisebudget eines Doktoranden übersteigen.”

Spezifische Zahlen:

Drei-Seed-Vergleich von sechs Modellen: über 150.000 $
HAL k=8 Zuverlässigkeit: 320.000 $
PaperBench mit LLM-Judge: ~9.500 $ pro Agent

Der Konflikt: Wenn sich nur Frontier-Labs statistisch zuverlässige Evaluierungen leisten können, konzentriert sich der gesellschaftliche Prozess der Evaluierung von KI-Systemen innerhalb derselben Labs, die diese bauen. Externe Validierung wird partiell oder absent.

Zuverlässigkeitsmultiplikator und Leakage

Die Studie dokumentiert auch ein zweites Problem: die Genauigkeit eines Einzellaufs ist statistisch unzuverlässig.

τ-bench-Beispiel: Abfall von 60 % (einzeln) auf 25 % (8-fache Konsistenz)
Holdout-Leakage: 12 von 17 Agenten-Benchmarks haben das Holdout-Kriterium nicht erfüllt
TAU-bench-Datenvergiftung im Dezember 2025 entdeckt, Entfernung erforderlich

Ein ordnungsgemäßer k=8-Zuverlässigkeitstest multipliziert alle Kosten 8-fach.

Vorgeschlagene Lösungen

Die EvalEval Coalition schlägt drei Richtungen vor:

Standardisiertes Data-Sharing — einheitliches Metadaten-Schema mit Konvertern für HELM, lm-eval-harness, Inspect AI (evaleval/EEE_datastore)
Pareto-effiziente Leaderboards — Genauigkeit zusammen mit Kosten, nicht Genauigkeit allein
Mittelschwerigkeit-Filterung — Best-Effort-2–3,5×-Kompression für Agenten

Warum ist das wichtig?

Der Artikel ist politikrelevant. Der EU-KI-Act, das NIST AI RMF und der UK-AISI-Evaluierungsrahmen setzen alle verfügbare unabhängige Evaluierung voraus. Wenn die Evaluierung mehr kostet als ein Forschungsstipendium, existiert die Regulierung nur auf dem Papier.

„Whoever can pay for the evaluation gets to write the leaderboard.”

Praktisch für KI-Governance:

Evaluierungsbudgetierung als zentrale Governance-Funktion, nicht als technische Kosten
Finanzierung unabhängiger Evaluierungsinfrastruktur (z. B. AISI-, NIST-Budgets)
Zuverlässigkeitsberichterstattung (pass^k) als regulatorischer Standard
Berücksichtigung der Eval-Kosten bei der Festlegung von Compliance-Anforderungen

Häufig gestellte Fragen

Was kostet die Evaluierung eines Frontier-Modells wirklich?

GAIA-Einzellauf: 2.829 $. Online Mind2Web (Browser-Use + Claude Sonnet 4): 1.577 $ für 40 % Genauigkeit. Holistic Agent Leaderboard (HAL) vollständig: 40.000 $ für 21.730 Rollouts über 9 Modelle und 9 Benchmarks. HAL mit 8-facher Zuverlässigkeit: ~320.000 $. PaperBench (vollständig): ~9.500 $ pro Agent.

Warum lassen sich agentische Benchmarks nicht wie statische komprimieren?

Statische LLM-Benchmarks (HELM, tinyBenchmarks, Anchor Points) erreichen 100–200× Kompression bei erhaltenem Ranking. Agentische Benchmarks erreichen nur 2–3,5× (Mittelschwerigkeit-Filterung), da Agenten-Benchmarks mehrstufige Interaktionen beinhalten, die keine einfache Sub-Sample-Reduktion ohne Informationsverlust erlauben.

Was ist die „Accountability-Barriere”?

Akademische Gruppen, KI-Sicherheitsinstitute und Journalisten stoßen nun bei dem Versuch, Frontier-Agenten unabhängig zu evaluieren, an eine **Budget-**Barriere vor einer technischen. Ein einzelner GAIA-Lauf kann das jährliche Reisebudget eines Doktoranden übersteigen. Das bedeutet, dass sich nur Frontier-Labs, die die Modelle produzieren, glaubwürdige Evaluierungen leisten können, was unabhängige Audits einschränkt.

EvalEval Coalition: KI-Evaluierung wird zum neuen Compute-Engpass — GAIA-Einzellauf 2.829 $, HAL-Leaderboard 40.000 $, akademische Auditoren stoßen an eine Budgetgrenze vor einer technischen