评估成本：GAIA $2.8K，HAL $40K，智能体2-3.5倍压缩

EvalEval联盟（Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen）于2026年4月29日在HuggingFace博客发布分析，显示AI模型评估成本已激增。单次GAIA运行$2,829，HAL排行榜$40,000（k=8可靠性$320,000），PaperBench每个智能体约$9,500。静态基准测试可压缩100-200倍，智能体基准测试仅2-3.5倍——独立审计人员面临问责障碍。

EvalEval联盟（Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen）于2026年4月29日在HuggingFace博客发布了详细分析，将AI计算讨论从训练转向评估——并表明经济逻辑已经逆转。

具体成本

2026年前沿模型单次评估的数字：

基准测试	费用
GAIA（单次运行）	$2,829
Online Mind2Web（Browser-Use + Claude Sonnet 4）	$1,577获得40%准确率
HAL（综合智能体排行榜，完整版）	$40,000，21,730次运行
HAL 8次运行可靠性	~$320,000
PaperBench（完整版）	每个智能体约$9,500
The Well（完整扫描）	约$9,600
MLE-Bench（1个种子）	约$5,500

对比：HELM（2022年）评估所有模型在所有场景的总花费约$100,000。2026年，单个基准测试（带可靠性的HAL）就超过了这个金额。

基准测试压缩——静态有效，智能体无效

类型	最大压缩率	排名保留
静态大语言模型基准测试	100-200倍	✓
智能体基准测试	2-3.5倍	部分
训练中循环	约1倍（不可能）	✗

Flash-HELM、tinyBenchmarks和Anchor Points成功将静态评估缩减到1%而不损失排名。对于智能体，只有中等难度过滤能达到2-3.5倍——多步骤交互无法简单子样本化。

问责障碍

文章最重要的论点：

“学术团队、AI安全研究机构和记者在尝试独立评估前沿智能体时，现在遇到的是预算障碍而非技术障碍。单次GAIA运行可能超过博士生的年度差旅预算。”

具体数字：

三种子六模型比较：超过$150,000
HAL k=8可靠性：$320,000
带大语言模型评判的PaperBench：每个智能体约$9,500

矛盾之处：如果只有前沿实验室才能负担得起统计上可靠的评估，AI系统评估的社会过程就集中在构建这些系统的实验室内部。外部验证变得局部或缺失。

可靠性乘数与数据泄漏

研究还记录了另一个问题：单次运行准确率在统计上不可靠。

τ-bench示例： 从60%（单次）降至25%（8次一致性）
保留集泄漏： 17个智能体基准测试中有12个未通过保留集标准
TAU-bench数据中毒于2025年12月发现，需要移除数据

适当的k=8可靠性测试将所有成本乘以8倍。

提出的解决方案

EvalEval联盟提出三个方向：

标准化数据共享 — 统一的元数据模式，提供HELM、lm-eval-harness、Inspect AI的转换器（evaleval/EEE_datastore）
帕累托高效排行榜 — 准确率加上成本，而非仅准确率
中等难度过滤 — 对智能体尽力实现2-3.5倍压缩

为何重要？

这篇文章与政策相关。欧盟AI法案、NIST AI RMF、英国AISI评估框架——都预设了可获取的独立评估。如果评估成本超过研究经费，监管只存在于纸上。

“谁能支付评估费用，谁就能编写排行榜。”

对AI治理的实际意义：

将评估预算视为核心治理功能，而非技术成本
资助独立评估基础设施（如AISI、NIST预算）
将可靠性报告（pass^k）作为监管标准
在设定合规要求时考虑评估成本

常见问题

评估前沿模型实际花费多少？

GAIA单次运行：$2,829。Online Mind2Web（Browser-Use + Claude Sonnet 4）：40%准确率花费$1,577。综合智能体排行榜（HAL）完整版：9个模型、9个基准21,730次运行共$40,000。HAL 8次运行可靠性：约$320,000。PaperBench（完整）：每个智能体约$9,500。

为什么智能体基准测试无法像静态基准测试那样压缩？

静态大语言模型基准测试（HELM、tinyBenchmarks、Anchor Points）在保留排名的情况下可实现100-200倍压缩。智能体基准测试仅能实现2-3.5倍（中等难度过滤），因为智能体基准测试包含多步骤交互，无法在不损失信息的情况下进行简单的子样本缩减。

什么是“问责障碍”？

学术团队、AI安全研究机构和记者在尝试独立评估前沿智能体时，现在遇到的是**预算**障碍而非技术障碍。单次GAIA运行可能超过博士生的年度差旅预算。这意味着只有生产模型的前沿实验室才能负担得起可信的评估，从而压缩了独立审计空间。

EvalEval联盟：AI评估成为新的计算瓶颈——GAIA单次运行$2,829，HAL排行榜$40,000，学术审计人员在遇到技术瓶颈前先碰壁于预算