🟢 🤖 模型 发布于: · 1 分钟阅读 ·

arXiv:2606.17930: 基准测试结果取决于评估协议——推理计算量改变前沿模型排名

arXiv:2606.17930 ↗

编辑插图:AI 模型排名取决于推理时的计算预算

论文表明基准测试结果在很大程度上取决于测量协议:在软件、数学、医学和网络安全 7 项高难度测试上测试了 12 个前沿模型。更大的 token 预算显著提升了 FrontierMath、Humanity's Last Exam 和 TerminalBench 上的结果,而模型排名随推理计算预算的不同而不同。作者建议将能力作为推理时计算量的函数来报告,而非单一数字。

🤖

本文由人工智能基于一手来源生成。

新预印本警告基准测试结果在很大程度上取决于测量协议,这对常见的前沿模型排行榜提出了质疑。

作者测试了什么?

该论文在软件、数学、医学和网络安全领域的 7 个高难度基准上测试了 12 个前沿模型。关键变量是推理计算量——模型在解决任务时可以消耗的计算量,即 token 预算。标准评估通常固定这一预算,但论文表明它恰恰是决定性因素。

更大的预算会改变什么?

更大的 token 预算在 FrontierMath、Humanity’s Last Exam、TerminalBench 和网络安全测试上显著提升结果。更重要的是,模型排名随预算不同而不同——在小预算下表现最好的模型在大预算下未必最好。因此,固定预算评估会系统性地低估真实能力。

这对模型评估为何重要?

作者建议将模型能力作为推理时计算量的函数来报告,而非单一数字。这一发现对安全和政策评估也具有参考意义:不控制计算预算的模型评估可能产生不可靠且具有误导性的排名。

常见问题

本文的主要发现是什么?
前沿模型的结果和排名在很大程度上取决于推理计算预算,因此固定预算评估会低估真实能力。
作者建议什么?
将模型能力作为推理时计算量的函数来报告,而非单一数字。