EvalEval联盟:AI评估成为新的计算瓶颈——GAIA单次运行$2,829,HAL排行榜$40,000,学术审计人员在遇到技术瓶颈前先碰壁于预算
EvalEval联盟(Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen)于2026年4月29日在HuggingFace博客发布分析,显示AI模型评估成本已激增。单次GAIA运行$2,829,HAL排行榜$40,000(k=8可靠性$320,000),PaperBench每个智能体约$9,500。静态基准测试可压缩100-200倍,智能体基准测试仅2-3.5倍——独立审计人员面临问责障碍。
EvalEval联盟(Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen)于2026年4月29日在HuggingFace博客发布了详细分析,将AI计算讨论从训练转向评估——并表明经济逻辑已经逆转。
具体成本
2026年前沿模型单次评估的数字:
| 基准测试 | 费用 |
|---|---|
| GAIA(单次运行) | $2,829 |
| Online Mind2Web(Browser-Use + Claude Sonnet 4) | $1,577获得40%准确率 |
| HAL(综合智能体排行榜,完整版) | $40,000,21,730次运行 |
| HAL 8次运行可靠性 | ~$320,000 |
| PaperBench(完整版) | 每个智能体约$9,500 |
| The Well(完整扫描) | 约$9,600 |
| MLE-Bench(1个种子) | 约$5,500 |
对比:HELM(2022年)评估所有模型在所有场景的总花费约$100,000。2026年,单个基准测试(带可靠性的HAL)就超过了这个金额。
基准测试压缩——静态有效,智能体无效
| 类型 | 最大压缩率 | 排名保留 |
|---|---|---|
| 静态大语言模型基准测试 | 100-200倍 | ✓ |
| 智能体基准测试 | 2-3.5倍 | 部分 |
| 训练中循环 | 约1倍(不可能) | ✗ |
Flash-HELM、tinyBenchmarks和Anchor Points成功将静态评估缩减到1%而不损失排名。对于智能体,只有中等难度过滤能达到2-3.5倍——多步骤交互无法简单子样本化。
问责障碍
文章最重要的论点:
“学术团队、AI安全研究机构和记者在尝试独立评估前沿智能体时,现在遇到的是预算障碍而非技术障碍。单次GAIA运行可能超过博士生的年度差旅预算。”
具体数字:
- 三种子六模型比较:超过$150,000
- HAL k=8可靠性:$320,000
- 带大语言模型评判的PaperBench:每个智能体约$9,500
矛盾之处:如果只有前沿实验室才能负担得起统计上可靠的评估,AI系统评估的社会过程就集中在构建这些系统的实验室内部。外部验证变得局部或缺失。
可靠性乘数与数据泄漏
研究还记录了另一个问题:单次运行准确率在统计上不可靠。
- τ-bench示例: 从60%(单次)降至25%(8次一致性)
- 保留集泄漏: 17个智能体基准测试中有12个未通过保留集标准
- TAU-bench数据中毒于2025年12月发现,需要移除数据
适当的k=8可靠性测试将所有成本乘以8倍。
提出的解决方案
EvalEval联盟提出三个方向:
- 标准化数据共享 — 统一的元数据模式,提供HELM、lm-eval-harness、Inspect AI的转换器(evaleval/EEE_datastore)
- 帕累托高效排行榜 — 准确率加上成本,而非仅准确率
- 中等难度过滤 — 对智能体尽力实现2-3.5倍压缩
为何重要?
这篇文章与政策相关。欧盟AI法案、NIST AI RMF、英国AISI评估框架——都预设了可获取的独立评估。如果评估成本超过研究经费,监管只存在于纸上。
“谁能支付评估费用,谁就能编写排行榜。”
对AI治理的实际意义:
- 将评估预算视为核心治理功能,而非技术成本
- 资助独立评估基础设施(如AISI、NIST预算)
- 将可靠性报告(pass^k)作为监管标准
- 在设定合规要求时考虑评估成本
常见问题
- 评估前沿模型实际花费多少?
- GAIA单次运行:$2,829。Online Mind2Web(Browser-Use + Claude Sonnet 4):40%准确率花费$1,577。综合智能体排行榜(HAL)完整版:9个模型、9个基准21,730次运行共$40,000。HAL 8次运行可靠性:约$320,000。PaperBench(完整):每个智能体约$9,500。
- 为什么智能体基准测试无法像静态基准测试那样压缩?
- 静态大语言模型基准测试(HELM、tinyBenchmarks、Anchor Points)在保留排名的情况下可实现100-200倍压缩。智能体基准测试仅能实现2-3.5倍(中等难度过滤),因为智能体基准测试包含多步骤交互,无法在不损失信息的情况下进行简单的子样本缩减。
- 什么是“问责障碍”?
- 学术团队、AI安全研究机构和记者在尝试独立评估前沿智能体时,现在遇到的是**预算**障碍而非技术障碍。单次GAIA运行可能超过博士生的年度差旅预算。这意味着只有生产模型的前沿实验室才能负担得起可信的评估,从而压缩了独立审计空间。
本文由人工智能基于一手来源生成。