arXiv:2606.17930: 基准测试结果取决于评估协议——推理计算量改变前沿模型排名
论文表明基准测试结果在很大程度上取决于测量协议:在软件、数学、医学和网络安全 7 项高难度测试上测试了 12 个前沿模型。更大的 token 预算显著提升了 FrontierMath、Humanity's Last Exam 和 TerminalBench 上的结果,而模型排名随推理计算预算的不同而不同。作者建议将能力作为推理时计算量的函数来报告,而非单一数字。
本文由人工智能基于一手来源生成。
新预印本警告基准测试结果在很大程度上取决于测量协议,这对常见的前沿模型排行榜提出了质疑。
作者测试了什么?
该论文在软件、数学、医学和网络安全领域的 7 个高难度基准上测试了 12 个前沿模型。关键变量是推理计算量——模型在解决任务时可以消耗的计算量,即 token 预算。标准评估通常固定这一预算,但论文表明它恰恰是决定性因素。
更大的预算会改变什么?
更大的 token 预算在 FrontierMath、Humanity’s Last Exam、TerminalBench 和网络安全测试上显著提升结果。更重要的是,模型排名随预算不同而不同——在小预算下表现最好的模型在大预算下未必最好。因此,固定预算评估会系统性地低估真实能力。
这对模型评估为何重要?
作者建议将模型能力作为推理时计算量的函数来报告,而非单一数字。这一发现对安全和政策评估也具有参考意义:不控制计算预算的模型评估可能产生不可靠且具有误导性的排名。
常见问题
- 本文的主要发现是什么?
- 前沿模型的结果和排名在很大程度上取决于推理计算预算,因此固定预算评估会低估真实能力。
- 作者建议什么?
- 将模型能力作为推理时计算量的函数来报告,而非单一数字。