基础设施对结果的具体影响有多大？

在Terminal-Bench 2.0上，最佳与最差资源配置之间的差异为6个百分点（p<0.01）。在SWE-bench上效果较小——5倍RAM变化时差异为1.54个百分点。

最优资源水平是多少？

3倍资源余量是「甜蜜点」——将基础设施错误率从5.8%降低到2.1%（p<0.001），同时保持结果稳定。严格固定单一数值会产生过多噪声。

作者对AI社区的结论是什么？

在没有记录和配对基础设施配置的情况下，排行榜上3个百分点以下的差异在统计上不显著。评估配置必须成为一等实验变量。

Anthropic：基础设施噪声使智能体基准测试结果偏差高达6个百分点

Q: 最优资源水平是多少？

3倍资源余量是「甜蜜点」——将基础设施错误率从5.8%降低到2.1%（p<0.001），同时保持结果稳定。严格固定单一数值会产生过多噪声。

Q: 作者对AI社区的结论是什么？

在没有记录和配对基础设施配置的情况下，排行榜上3个百分点以下的差异在统计上不显著。评估配置必须成为一等实验变量。

由Gian Segato领导、Nicholas Carlini、Jeremy Hadfield、Mike Merrill和Alex Shaw共同参与的Anthropic研究团队于2026年4月17日发布了详细研究**《量化智能体编码评估中的基础设施噪声》**。研究结果揭示了一个影响几乎所有AI基准测试解读的严重方法论问题。

主要发现

基础设施配置——具体是分配的RAM量和CPU余量——可使智能体编码基准测试结果相差6个百分点。 这比当前主要排行榜上顶级模型之间的差距还要大。

研究人员提出了直接论断：“Terminal-Bench 2.0上资源最充足和最匮乏设置之间的差距为6个百分点（p<0.01）。“

测试的基准

研究使用了两种标准测试：

Terminal-Bench 2.0 — 主要焦点，衡量终端环境中的智能体编码能力
SWE-bench — 227个任务的交叉验证

结果不对称：Terminal-Bench 2.0具有显著效果（6pp），而SWE-bench敏感度较低（5倍RAM变化时1.54pp）。这表明任务和工具的特定结构会影响基准测试的”噪声程度”。

严格限制会加剧问题

直觉可能是：“那我们给每个人相同的资源，问题就解决了。“但数据显示恰恰相反：

严格限制（每个人精确固定值）：基础设施错误率 5.8%
无上限资源（不限制）：基础设施错误率 0.5%

换句话说，严格统一实际上增加了噪声而非减少了噪声，因为超出限制的边缘任务会失败。

甜蜜点： 3倍资源余量。这种设计将基础设施错误降至 2.1%（p<0.001），同时保持结果一致性。思路是每个任务都有”底线”（保证）和”上限”（终止阈值），而不是一个固定数字。

噪声基准与排行榜解读

作者对评论模型间细微差异的AI社区传达的最严厉信息是：

“在评估配置未记录和对齐之前，排行榜上3个百分点以下的差异值得质疑。”

原因在于统计学：二项置信区间独立于任何基础设施效应就已覆盖1-2个百分点。加上高达6pp的基础设施混杂因素，最坏情况下测量的自然不确定性约为8pp左右。

五条具体建议

研究人员以评估者的具体建议作为结尾：

为每个任务指定保证分配和硬终止阈值（不是单一固定值）
校准差距使底线分数和上限分数落在统计噪声内
明确报告执行方法论
将资源规格作为一等实验变量记录
在多天内运行评估以平均时间噪声（API延迟、集群健康变化）

为何这对行业重要

作者的核心结论：“排行榜上2分的领先可能反映了真正的能力差异，也可能反映了一次评估在更强大的硬件上运行，甚至只是在一天中更幸运的时段。”

对AI社区而言，这意味着发布结果时需要更系统化的基础设施文档。在没有精确RAM、CPU、API标头和时间窗口配置的情况下发布的基准测试——大多数都是如此——存在的噪声可能完全掩盖模型质量上的名义差异。

Anthropic的研究发布正值模型间差异以单一百分点衡量、营销将这些差异呈现为革命性突破的时期。研究表明在这里需要格外谨慎。