EvalEval Coalition: KI-Evaluierung wird zum neuen Compute-Engpass — GAIA-Einzellauf 2.829 $, HAL-Leaderboard 40.000 $, akademische Auditoren stoßen an eine Budgetgrenze vor einer technischen
Die EvalEval Coalition (Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen) veröffentlichte am 29. April 2026 eine Analyse im HuggingFace-Blog, die zeigt, wie die Kosten für die Evaluierung von KI-Modellen explodiert sind. Ein einzelner GAIA-Lauf kostet 2.829 $, das HAL-Leaderboard 40.000 $ (k=8 Zuverlässigkeit 320.000 $), PaperBench rund 9.500 $ pro Agent. Statische Benchmarks komprimieren 100–200×, agentische nur 2–3,5× — eine Accountability-Barriere für unabhängige Auditoren.
Die EvalEval Coalition (Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen) veröffentlichte am 29. April 2026 eine detaillierte Analyse im HuggingFace-Blog, die die KI-Compute-Diskussion von Training auf Evaluierung verlagert — und zeigt, dass sich die Ökonomie umgekehrt hat.
Konkrete Kosten
Zahlen für einzelne Frontier-Modell-Evaluierungen im Jahr 2026:
| Benchmark | Kosten |
|---|---|
| GAIA (Einzellauf) | 2.829 $ |
| Online Mind2Web (Browser-Use + Claude Sonnet 4) | 1.577 $ für 40 % Genauigkeit |
| HAL (Holistic Agent Leaderboard, vollständig) | 40.000 $ für 21.730 Rollouts |
| HAL mit 8-facher Zuverlässigkeit | ~320.000 $ |
| PaperBench (vollständig) | ~9.500 $ pro Agent |
| The Well (vollständiger Durchlauf) | ~9.600 $ |
| MLE-Bench (1 Seed) | ~5.500 $ |
Zum Vergleich: HELM (2022) kostete insgesamt rund 100.000 $ für alle Modelle über alle Szenarien. Im Jahr 2026 übersteigt ein einzelner Benchmark (HAL mit Zuverlässigkeit) diesen Betrag.
Benchmark-Kompression — was für statische funktioniert, funktioniert nicht für agentische
| Typ | Max. Kompression | Ranking erhalten |
|---|---|---|
| Statische LLM-Benchmarks | 100–200× | ✓ |
| Agentische Benchmarks | 2–3,5× | Teilweise |
| Training-in-Loop | ~1× (unmöglich) | ✗ |
Flash-HELM, tinyBenchmarks und Anchor Points reduzieren statisches Eval erfolgreich auf 1 % der Größe ohne Rankingverlust. Für Agenten liefert nur Mittelschwerigkeit-Filterung 2–3,5× — mehrstufige Interaktionen können nicht einfach sub-gesamplet werden.
Accountability-Barriere
Vielleicht das wichtigste Argument des Artikels:
„Akademische Gruppen, KI-Sicherheitsinstitute und Journalisten stoßen nun bei dem Versuch, Frontier-Agenten unabhängig zu evaluieren, an eine Budgetbarriere vor einer technischen. Ein einzelner GAIA-Lauf kann das jährliche Reisebudget eines Doktoranden übersteigen.”
Spezifische Zahlen:
- Drei-Seed-Vergleich von sechs Modellen: über 150.000 $
- HAL k=8 Zuverlässigkeit: 320.000 $
- PaperBench mit LLM-Judge: ~9.500 $ pro Agent
Der Konflikt: Wenn sich nur Frontier-Labs statistisch zuverlässige Evaluierungen leisten können, konzentriert sich der gesellschaftliche Prozess der Evaluierung von KI-Systemen innerhalb derselben Labs, die diese bauen. Externe Validierung wird partiell oder absent.
Zuverlässigkeitsmultiplikator und Leakage
Die Studie dokumentiert auch ein zweites Problem: die Genauigkeit eines Einzellaufs ist statistisch unzuverlässig.
- τ-bench-Beispiel: Abfall von 60 % (einzeln) auf 25 % (8-fache Konsistenz)
- Holdout-Leakage: 12 von 17 Agenten-Benchmarks haben das Holdout-Kriterium nicht erfüllt
- TAU-bench-Datenvergiftung im Dezember 2025 entdeckt, Entfernung erforderlich
Ein ordnungsgemäßer k=8-Zuverlässigkeitstest multipliziert alle Kosten 8-fach.
Vorgeschlagene Lösungen
Die EvalEval Coalition schlägt drei Richtungen vor:
- Standardisiertes Data-Sharing — einheitliches Metadaten-Schema mit Konvertern für HELM, lm-eval-harness, Inspect AI (evaleval/EEE_datastore)
- Pareto-effiziente Leaderboards — Genauigkeit zusammen mit Kosten, nicht Genauigkeit allein
- Mittelschwerigkeit-Filterung — Best-Effort-2–3,5×-Kompression für Agenten
Warum ist das wichtig?
Der Artikel ist politikrelevant. Der EU-KI-Act, das NIST AI RMF und der UK-AISI-Evaluierungsrahmen setzen alle verfügbare unabhängige Evaluierung voraus. Wenn die Evaluierung mehr kostet als ein Forschungsstipendium, existiert die Regulierung nur auf dem Papier.
„Whoever can pay for the evaluation gets to write the leaderboard.”
Praktisch für KI-Governance:
- Evaluierungsbudgetierung als zentrale Governance-Funktion, nicht als technische Kosten
- Finanzierung unabhängiger Evaluierungsinfrastruktur (z. B. AISI-, NIST-Budgets)
- Zuverlässigkeitsberichterstattung (pass^k) als regulatorischer Standard
- Berücksichtigung der Eval-Kosten bei der Festlegung von Compliance-Anforderungen
Häufig gestellte Fragen
- Was kostet die Evaluierung eines Frontier-Modells wirklich?
- GAIA-Einzellauf: 2.829 $. Online Mind2Web (Browser-Use + Claude Sonnet 4): 1.577 $ für 40 % Genauigkeit. Holistic Agent Leaderboard (HAL) vollständig: 40.000 $ für 21.730 Rollouts über 9 Modelle und 9 Benchmarks. HAL mit 8-facher Zuverlässigkeit: ~320.000 $. PaperBench (vollständig): ~9.500 $ pro Agent.
- Warum lassen sich agentische Benchmarks nicht wie statische komprimieren?
- Statische LLM-Benchmarks (HELM, tinyBenchmarks, Anchor Points) erreichen 100–200× Kompression bei erhaltenem Ranking. Agentische Benchmarks erreichen nur 2–3,5× (Mittelschwerigkeit-Filterung), da Agenten-Benchmarks mehrstufige Interaktionen beinhalten, die keine einfache Sub-Sample-Reduktion ohne Informationsverlust erlauben.
- Was ist die „Accountability-Barriere”?
- Akademische Gruppen, KI-Sicherheitsinstitute und Journalisten stoßen nun bei dem Versuch, Frontier-Agenten unabhängig zu evaluieren, an eine **Budget-**Barriere vor einer technischen. Ein einzelner GAIA-Lauf kann das jährliche Reisebudget eines Doktoranden übersteigen. Das bedeutet, dass sich nur Frontier-Labs, die die Modelle produzieren, glaubwürdige Evaluierungen leisten können, was unabhängige Audits einschränkt.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
DeepMind KI-Co-Clinician: In blinder Evaluierung von 98 Primärversorgungsanfragen bevorzugten Ärzte das System gegenüber führenden Tools, null kritische Fehler in 97/98 Fällen
Anthropic Claude for Creative Work: Konnektoren für Blender, 50+ Adobe-Creative-Cloud-Tools, Autodesk Fusion, Ableton, SketchUp und Splice
Google ERA: KI-System für wissenschaftliche Forschung erreicht CDC-Spitzenplatz bei Hospitalisierungsprognosen, löst ein offenes kosmologisches Problem und verfolgt CO2 im 10-Minuten-Takt