Anthropic:基础设施噪声使智能体基准测试结果偏差高达6个百分点
为什么重要
Anthropic的研究人员证明,RAM配置和CPU余量可使智能体编码基准测试结果相差6个百分点——这比排行榜顶级模型之间的差距还要大。他们测试了Terminal-Bench 2.0和SWE-bench。建议:在评估配置未记录和对齐之前,3个百分点以下的优势值得质疑。
由Gian Segato领导、Nicholas Carlini、Jeremy Hadfield、Mike Merrill和Alex Shaw共同参与的Anthropic研究团队于2026年4月17日发布了详细研究**《量化智能体编码评估中的基础设施噪声》**。研究结果揭示了一个影响几乎所有AI基准测试解读的严重方法论问题。
主要发现
基础设施配置——具体是分配的RAM量和CPU余量——可使智能体编码基准测试结果相差6个百分点。 这比当前主要排行榜上顶级模型之间的差距还要大。
研究人员提出了直接论断:“Terminal-Bench 2.0上资源最充足和最匮乏设置之间的差距为6个百分点(p<0.01)。“
测试的基准
研究使用了两种标准测试:
- Terminal-Bench 2.0 — 主要焦点,衡量终端环境中的智能体编码能力
- SWE-bench — 227个任务的交叉验证
结果不对称:Terminal-Bench 2.0具有显著效果(6pp),而SWE-bench敏感度较低(5倍RAM变化时1.54pp)。这表明任务和工具的特定结构会影响基准测试的”噪声程度”。
严格限制会加剧问题
直觉可能是:“那我们给每个人相同的资源,问题就解决了。“但数据显示恰恰相反:
- 严格限制(每个人精确固定值):基础设施错误率 5.8%
- 无上限资源(不限制):基础设施错误率 0.5%
换句话说,严格统一实际上增加了噪声而非减少了噪声,因为超出限制的边缘任务会失败。
甜蜜点: 3倍资源余量。这种设计将基础设施错误降至 2.1%(p<0.001),同时保持结果一致性。思路是每个任务都有”底线”(保证)和”上限”(终止阈值),而不是一个固定数字。
噪声基准与排行榜解读
作者对评论模型间细微差异的AI社区传达的最严厉信息是:
“在评估配置未记录和对齐之前,排行榜上3个百分点以下的差异值得质疑。”
原因在于统计学:二项置信区间独立于任何基础设施效应就已覆盖1-2个百分点。加上高达6pp的基础设施混杂因素,最坏情况下测量的自然不确定性约为8pp左右。
五条具体建议
研究人员以评估者的具体建议作为结尾:
- 为每个任务指定保证分配和硬终止阈值(不是单一固定值)
- 校准差距使底线分数和上限分数落在统计噪声内
- 明确报告执行方法论
- 将资源规格作为一等实验变量记录
- 在多天内运行评估以平均时间噪声(API延迟、集群健康变化)
为何这对行业重要
作者的核心结论:“排行榜上2分的领先可能反映了真正的能力差异,也可能反映了一次评估在更强大的硬件上运行,甚至只是在一天中更幸运的时段。”
对AI社区而言,这意味着发布结果时需要更系统化的基础设施文档。在没有精确RAM、CPU、API标头和时间窗口配置的情况下发布的基准测试——大多数都是如此——存在的噪声可能完全掩盖模型质量上的名义差异。
Anthropic的研究发布正值模型间差异以单一百分点衡量、营销将这些差异呈现为革命性突破的时期。研究表明在这里需要格外谨慎。
本文由人工智能基于一手来源生成。