🟡 🏥 实践应用 2026年4月30日星期四 · 2 分钟阅读 ·

EvalEval联盟:AI评估成为新的计算瓶颈——GAIA单次运行$2,829,HAL排行榜$40,000,学术审计人员在遇到技术瓶颈前先碰壁于预算

编辑插图:天平向评估成本一侧倾斜,超过训练成本

EvalEval联盟(Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen)于2026年4月29日在HuggingFace博客发布分析,显示AI模型评估成本已激增。单次GAIA运行$2,829,HAL排行榜$40,000(k=8可靠性$320,000),PaperBench每个智能体约$9,500。静态基准测试可压缩100-200倍,智能体基准测试仅2-3.5倍——独立审计人员面临问责障碍。

EvalEval联盟(Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen)于2026年4月29日在HuggingFace博客发布了详细分析,将AI计算讨论从训练转向评估——并表明经济逻辑已经逆转。

具体成本

2026年前沿模型单次评估的数字:

基准测试费用
GAIA(单次运行)$2,829
Online Mind2Web(Browser-Use + Claude Sonnet 4)$1,577获得40%准确率
HAL(综合智能体排行榜,完整版)$40,000,21,730次运行
HAL 8次运行可靠性~$320,000
PaperBench(完整版)每个智能体约$9,500
The Well(完整扫描)约$9,600
MLE-Bench(1个种子)约$5,500

对比:HELM(2022年)评估所有模型所有场景的总花费约$100,000。2026年,单个基准测试(带可靠性的HAL)就超过了这个金额。

基准测试压缩——静态有效,智能体无效

类型最大压缩率排名保留
静态大语言模型基准测试100-200倍
智能体基准测试2-3.5倍部分
训练中循环约1倍(不可能)

Flash-HELM、tinyBenchmarks和Anchor Points成功将静态评估缩减到1%而不损失排名。对于智能体,只有中等难度过滤能达到2-3.5倍——多步骤交互无法简单子样本化。

问责障碍

文章最重要的论点:

“学术团队、AI安全研究机构和记者在尝试独立评估前沿智能体时,现在遇到的是预算障碍而非技术障碍。单次GAIA运行可能超过博士生的年度差旅预算。”

具体数字:

  • 三种子六模型比较:超过$150,000
  • HAL k=8可靠性:$320,000
  • 带大语言模型评判的PaperBench:每个智能体约$9,500

矛盾之处:如果只有前沿实验室才能负担得起统计上可靠的评估,AI系统评估的社会过程就集中在构建这些系统的实验室内部。外部验证变得局部或缺失。

可靠性乘数与数据泄漏

研究还记录了另一个问题:单次运行准确率在统计上不可靠。

  • τ-bench示例: 从60%(单次)降至25%(8次一致性)
  • 保留集泄漏: 17个智能体基准测试中有12个未通过保留集标准
  • TAU-bench数据中毒于2025年12月发现,需要移除数据

适当的k=8可靠性测试将所有成本乘以8倍

提出的解决方案

EvalEval联盟提出三个方向:

  1. 标准化数据共享 — 统一的元数据模式,提供HELM、lm-eval-harness、Inspect AI的转换器(evaleval/EEE_datastore
  2. 帕累托高效排行榜 — 准确率加上成本,而非仅准确率
  3. 中等难度过滤 — 对智能体尽力实现2-3.5倍压缩

为何重要?

这篇文章与政策相关。欧盟AI法案、NIST AI RMF、英国AISI评估框架——都预设了可获取的独立评估。如果评估成本超过研究经费,监管只存在于纸上

“谁能支付评估费用,谁就能编写排行榜。”

对AI治理的实际意义:

  • 将评估预算视为核心治理功能,而非技术成本
  • 资助独立评估基础设施(如AISI、NIST预算)
  • 将可靠性报告(pass^k)作为监管标准
  • 在设定合规要求时考虑评估成本

常见问题

评估前沿模型实际花费多少?
GAIA单次运行:$2,829。Online Mind2Web(Browser-Use + Claude Sonnet 4):40%准确率花费$1,577。综合智能体排行榜(HAL)完整版:9个模型、9个基准21,730次运行共$40,000。HAL 8次运行可靠性:约$320,000。PaperBench(完整):每个智能体约$9,500。
为什么智能体基准测试无法像静态基准测试那样压缩?
静态大语言模型基准测试(HELM、tinyBenchmarks、Anchor Points)在保留排名的情况下可实现100-200倍压缩。智能体基准测试仅能实现2-3.5倍(中等难度过滤),因为智能体基准测试包含多步骤交互,无法在不损失信息的情况下进行简单的子样本缩减。
什么是“问责障碍”?
学术团队、AI安全研究机构和记者在尝试独立评估前沿智能体时,现在遇到的是**预算**障碍而非技术障碍。单次GAIA运行可能超过博士生的年度差旅预算。这意味着只有生产模型的前沿实验室才能负担得起可信的评估,从而压缩了独立审计空间。
🤖

本文由人工智能基于一手来源生成。