評価コスト：GAIA $2.8K、HAL $40K、エージェント2-3.5倍圧縮

EvalEval Coalition（Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen）は2026年4月29日、HuggingFaceブログにAIモデルの評価コストが爆発的に増加していることを示す分析を公開しました。単一のGAIAラン$2,829、HALリーダーボード$40,000（k=8信頼性$320,000）、PaperBenchはエージェントあたり約$9,500。静的ベンチマークは100-200倍圧縮可能ですが、エージェントベンチマークはわずか2-3.5倍。独立した監査人にとっての説明責任の障壁となっています。

EvalEval Coalition（Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen）は2026年4月29日、HuggingFaceブログに詳細な分析を公開しました。AI計算の議論をトレーニングから評価へとシフトさせ、経済原理が逆転したことを示しています。

具体的なコスト

2026年のフロンティアモデル単一評価の数字：

ベンチマーク	費用
GAIA（シングルラン）	$2,829
Online Mind2Web（Browser-Use + Claude Sonnet 4）	40%精度で$1,577
HAL（総合エージェントリーダーボード、フル）	21,730ロールアウトで$40,000
HAL 8ラン信頼性	~$320,000
PaperBench（フル）	エージェントあたり~$9,500
The Well（フルスイープ）	~$9,600
MLE-Bench（1シード）	~$5,500

比較：HELM（2022年）はすべてのモデルのすべてのシナリオで合計約$100,000かかりました。2026年には単一ベンチマーク（信頼性付きHAL）がその金額を超えます。

ベンチマーク圧縮 — 静的に機能するものがエージェントには機能しない

タイプ	最大圧縮	ランキング保持
静的LLMベンチマーク	100-200倍	✓
エージェントベンチマーク	2-3.5倍	部分的
トレーニング-in-ループ	~1倍（不可能）	✗

Flash-HELM、tinyBenchmarks、Anchor Pointsはランキングを失わずに静的評価を1%のサイズに削減することに成功しています。エージェントに対しては中程度の難易度フィルタリングのみが2-3.5倍を達成します — マルチステップの相互作用は単純にサブサンプリングできません。

説明責任の障壁

記事の最も重要な議論：

「学術グループ、AI安全研究機関、ジャーナリストがフロンティアエージェントを独立して評価しようとすると、技術的障壁より先に予算障壁に直面します。単一のGAIAランが博士課程学生の年間出張予算を超える可能性があります。」

具体的な数字：

6モデルの3シード比較：$150,000以上
HAL k=8信頼性：$320,000
LLM評価付きPaperBench：エージェントあたり約$9,500

矛盾：フロンティアラボだけが統計的に信頼できる評価を行える余裕がある場合、AIシステム評価の社会的プロセスはそれらを構築する同じラボ内に集中します。外部検証は部分的または存在しないものになります。

信頼性乗数とリーケージ

研究は別の問題も文書化しています：シングルラン精度は統計的に信頼できません。

τ-benchの例： 60%（シングル）から25%（8ラン一致）に低下
ホールドアウトリーケージ： 17のエージェントベンチマークのうち12がホールドアウト基準に失敗
TAU-benchデータポイズニングが2025年12月に発見、除去が必要

適切なk=8信頼性テストはすべてのコストを8倍にします。

提案された解決策

EvalEval Coalitionは3つの方向性を提案します：

標準化されたデータ共有 — HELM、lm-eval-harness、Inspect AI用のコンバーター付き統一メタデータスキーマ（evaleval/EEE_datastore）
パレート効率的なリーダーボード — 精度だけでなく、精度プラスコスト
中程度の難易度フィルタリング — エージェント向けのベストエフォート2-3.5倍圧縮

なぜ重要なのか？

この記事は政策に関連しています。EU AI Act、NIST AI RMF、英国AISI評価フレームワーク — すべてアクセス可能な独立した評価を前提としています。評価がリサーチグラントより高くつく場合、規制は紙の上にしか存在しません。

「評価の費用を払える者がリーダーボードを書く。」

AIガバナンスへの実際的な意味：

評価予算を技術コストではなくコアガバナンス機能として位置付ける
独立した評価インフラ（AISI、NIST予算など）への資金提供
信頼性レポート（pass^k）を規制標準として
コンプライアンス要件設定時に評価コストを考慮

よくある質問

フロンティアモデルを評価するのに実際いくらかかりますか？

GAIAシングルラン：$2,829。Online Mind2Web（Browser-Use + Claude Sonnet 4）：40%精度で$1,577。総合エージェントリーダーボード（HAL）フル：9モデル・9ベンチマークの21,730ロールアウトで$40,000。HAL 8ラン信頼性：約$320,000。PaperBench（フル）：エージェントあたり約$9,500。

エージェントベンチマークは静的ベンチマークのように圧縮できないのはなぜですか？

静的LLMベンチマーク（HELM、tinyBenchmarks、Anchor Points）はランキングを保持しながら100-200倍の圧縮を達成します。エージェントベンチマークはわずか2-3.5倍（中程度の難易度フィルタリング）しか達成できません。エージェントベンチマークには情報を失わずに単純なサブサンプル削減ができないマルチステップの相互作用が含まれるためです。

「説明責任の障壁」とは何ですか？

学術グループ、AI安全研究機関、ジャーナリストがフロンティアエージェントを独立して評価しようとすると、技術的障壁より先に**予算**障壁に直面します。単一のGAIAランが博士課程学生の年間出張予算を超える可能性があります。これはモデルを生産するフロンティアラボだけが信頼できる評価を行える余裕があることを意味し、独立した監査の範囲が狭まります。

EvalEval Coalition：AI評価が新たな計算ボトルネックに — GAIAのシングルラン$2,829、HALリーダーボード$40,000、学術監査人は技術的障壁より先に予算の壁に直面