两种AI衡量标准分歧——这将带来决定性影响吗?
来自MIT和西北大学的研究人员证明,关于AI能力民主化还是集中化的结论完全取决于所选基准——而非技术本身的实际状态。
本文由人工智能基于一手来源生成。
最强大的AI系统将继续为富裕企业和政府所独占,还是终将普惠所有人?这是现代AI发展中的一个根本性政策问题——根据一项新研究,答案既非「是」也非「否」。答案是:取决于你衡量什么。
论文「Two AI Metrics Diverged: Will it Make All the Difference?」(作者:Alex Fogelison、Zachary Brown、Hans Gundlach、Jayson Lynch和Neil Thompson,来自MIT和西北大学),被ICML 2026技术AI治理研究研讨会接收,提供了一项数学分析,对监管机构、研究人员以及所有试图预测AI未来走向的人都具有深远影响。
同一种技术能否同时实现民主化和集中化?
研究人员的回答是明确的:可以,而且这正在发生——取决于你看哪个基准。
验证损失是AI研究中每天使用的标准模型误差指标,它显示随着计算资源的增加,较小模型与较大模型之间出现了收敛。较小的模型正在追赶较大的模型。这是一个支持民主化叙事的信号——即先进AI将对更广泛的行为者越来越可及。
然而,另一组能力衡量指标——测试编程、推理或说服性写作等具体任务的基准——显示出分歧。前沿模型(即那些在拥有数十亿美元计算资源的大型实验室中开发的模型),不仅与较小模型保持同步,而且还在不断扩大优势。
两个发现同时成立。这一悖论并非偶然——它源于指标本身的数学结构。
指标分类:有界与无界
该论文的核心贡献是对测量工具的形式化数学分类,依据是其相对于计算成本的函数形式。
作者证明,有界指标——那些具有数学上限的指标——始终倾向于支持可及性。当大型模型接近最大值时,较小的模型可以用少得多的资源追赶上来。验证损失正是这样一种指标。
相反,无界指标——那些可以无限增长的指标——倾向于有利于拥有海量资源的行为者。当一个模型在某个基准上达到100分时,拥有更多资源的另一个模型可以达到1000分甚至10000分。差距不会缩小,只会增大。
这不仅仅是纯理论上的趣事。评估报告、监管提案和公共研究中的基准选择,直接决定你得出的结论——即使你在同样的模型上针对同样的任务进行研究。
政策影响:争论在一定程度上是衡量工具的产物
研究人员特别强调了软件工程、合成生物学和修辞劝说力等领域,作为前沿模型的同样进步可能看起来像民主化或集中化的例子——这取决于该领域的相关能力在数学上是否有界。
这对基于「AI能力是否对小型行为者可及」制定政策的监管机构有直接影响。若使用有界指标,你的结论将是肯定的。若使用无界指标,你的结论将正好相反。
AI民主化与集中化之争,在一定程度上是衡量工具的产物,而非对技术实际状态的反映。
该论文呼吁研究界在得出政策结论时,明确识别所用指标的函数形式——并意识到,适合于在实验室内比较模型的基准,未必适合于预测AI发展的社会结果。
对于追踪AI监管的研究人员和政策制定者而言,这是一个论据,说明在做出关于能力可及性或集中化的决策时,不应将任何单一基准用作唯一指标——因为每一个此类结论背后都隐藏着可能与直觉截然不同的数学假设。
常见问题
- 什么是验证损失,为何它对这场争论至关重要?
- 验证损失是模型训练过程中的标准误差衡量指标。根据这项研究,验证损失显示较小模型与较大模型之间存在收敛趋势——这将指向AI能力民主化。
- 为何有界指标倾向于支持可及性?
- 有界指标存在数学上的上限。当大型模型接近该上限时,小型模型可以用少得多的资源追赶上来——这是作者正式证明的数学条件。
- 哪些领域可能因指标选择不同而得出截然相反的结论?
- 作者以软件工程、合成生物学和修辞劝说力为例,说明有界与无界指标的选择可能导致截然相反的政策结论。