什么是测试时计算，为何它对评估至关重要？

测试时计算是AI智能体完成任务时所使用的计算资源量（以令牌衡量）。AISI证明，更大的预算会直接提升表现，因此能力应以曲线衡量，而非单一基准分数。

将令牌预算提高十倍能带来多大改进？

将预算从100万增至1000万令牌，在软件工程任务上可带来约25%的提升，在数学和学术任务上约为22%——这是AISI的实测数据。

为何这对监管机构至关重要？

基于固定预算的风险评估在结构上低估了模型的真实能力。新一代模型从额外计算中获益的程度远超旧模型，这意味着标准化测试可能给人一种虚假的安全感。

AISI：应按计算预算评估AI智能体

英国AI安全研究所的研究表明，采用固定令牌预算的AI智能体评估方法会系统性地低估前沿模型的真实能力。将预算从100万增至1000万令牌，可将软件工程任务的表现提升约25%，数学测试提升约22%。AISI呼吁监管机构从基准分数转向能力曲线，以反映可变计算预算的影响。

英国AI安全研究所（AISI）发布了一项对监管机构和安全领域影响深远的研究：以固定令牌预算衡量性能的标准AI智能体评估方法，会系统性地低估前沿模型的真实能力。与其依赖单一基准分数，智能体的能力应被理解为一条曲线——追踪性能随可用计算预算变化而改变的函数。

智能体能力取决于令牌预算

研究清楚表明，仅知道智能体在给定令牌预算下的表现是不够的。关键在于理解当分配更多资源时，其表现如何变化。在软件工程任务中，将预算从100万增至1000万令牌带来了约25%的性能提升。在数学和学术任务上，提升约为22%。这些差异并非微不足道——它代表了一个无法完成任务的模型与一个能可靠、持续解决问题的模型之间的差距。

网络安全领域还出现了一个尤为值得关注的发现：约8%的全部网络安全测试任务仅在1000万令牌或以上预算下才能解决。在使用较低预算的标准评估框架下，这些任务看似无解——从而使监管机构和安全研究人员对前沿模型所代表的真实风险形成了扭曲认知。

现有评估究竟在衡量什么？

标准基准测试采用固定令牌预算，衡量智能体成功完成一组任务的比例。这种方法存在根本性的方法论问题：它无法在模型之间进行横向比较，也不能可靠地显示能力的真实边界。

AISI测量发现，某个前沿模型的能力视野——定义为模型能够可靠解决的最长任务——在预算从250万增至5000万令牌时，从40分钟增长至4小时。同样的差异也影响对进步速度的评估：在250万令牌预算下，前沿网络安全能力每4.7个月翻倍。在5000万令牌预算下，这一翻倍速度加快了约60%——这意味着我们根据评估边界的设定，实际上是在测量完全不同的发展轨迹。

计算需求随专业人员完成同一任务所需时间呈幂律关系扩展，指数介于0.7至1.0之间。专家需要一小时的任务需要数百万令牌；耗时一周的项目则需要数十亿令牌。

新一代模型从更多计算中获益更多

从安全角度而言，最令人担忧的发现是新旧模型之间的不对称性。新一代前沿模型在三个维度上系统性地从更大计算预算中获益更多：

覆盖范围 — 在相同计算预算下能够解决更难的任务
可靠性 — 在边缘案例和复杂场景上更稳定地取得成功
效率 — 用比旧一代更少的令牌完成相同任务

这种组合意味着标准化测试不仅低估了当前能力，还扭曲了不同代模型之间的比较。旧模型在低预算下看起来具有竞争力，而新模型在用户生产环境实际使用的预算水平下则远超前者。不考虑这种不对称性的评估框架会系统性地错误呈现相对进步。

固定预算对监管的影响

AISI明确警告了一个具有直接政策影响的结构性问题。基于固定预算的风险评估并未衡量其声称所衡量的内容——它系统性地遗漏了只有在更高计算水平下才能发现的高价值、高风险能力。单一预算下的评估可能导致模型间的不平等比较，使决策者低估智能体能力，并掩盖真实的风险规模。

制定AI监管框架的组织——从各国政府到国际机构——必须认识到，模型的基准分数并非一个明确的值，而是评估者所设定的计算预算的函数。若不明确规定该预算，模型间的比较在方法论上就是不可靠的。

AISI建议转向能力曲线方法：在一系列预算点上测量性能，识别每个模型的覆盖范围、可靠性和效率特征，并仅在掌握完整图景的基础上得出风险结论。对安全团队而言，这一含义是明确的：一个在评估中未显示出针对某类攻击的能力的模型，其实可能将该能力隐藏在评估者的预算边界之后。

英国AISI：AI智能体评估必须考虑计算预算

智能体能力取决于令牌预算

现有评估究竟在衡量什么？

新一代模型从更多计算中获益更多

固定预算对监管的影响

常见问题

来源

相关新闻