arXiv:2606.17005: 贝叶斯审计框架揭示AI排行榜隐藏不兼容的历史记录
该论文提出了一个贝叶斯审计框架,表明一个含1000个系统的最终排行榜快照可能对应多条不兼容的历史轨迹,收敛时间在23至75步之间。依靠LiveBench、Open LLM Leaderboard v2、LMArena、GAIA和tau-bench的存档数据,作者提出了archive-and-adjudication协议,用于重建评分历史并驳斥关于前沿模型的无根据主张。
本文由人工智能基于一手来源生成。
新预印本提出了一个贝叶斯评估审计框架,警告公开AI模型排行榜可能隐藏着关于进展的相互矛盾的叙述。
该论文揭示了什么问题?
作者表明,一个含1000个系统的最终排行榜快照与多条不兼容的历史轨迹兼容。换言之,相同的当前排名可能源于截然不同的开发轨迹——在一个场景中性能收敛时间仅23步,在另一个场景中则达75步。这使从排行榜的最后状态推断进展速度的做法受到质疑。
分析基于哪些数据?
该论文依靠五个著名评估来源的存档数据:LiveBench、Open LLM Leaderboard v2、LMArena、GAIA和tau-bench。基于这些数据,作者揭示了选择性报告和事后基准修订的风险,这些风险可能扭曲对进展的感知。
作者提出了什么方案?
提出的解决方案是archive-and-adjudication协议——系统性地存档排行榜状态并在事后裁决,以重建评分历史并驳斥关于前沿模型的无根据主张。该提议与EU AI法关于第三方透明度和前沿模型审计的要求直接相关。
常见问题
- 这个贝叶斯框架展示了什么?
- 一个排行榜快照可能对应不兼容的发展历史,收敛时间在23至75步之间。
- 什么是archive-and-adjudication协议?
- 一种重建评分历史并驳斥关于前沿模型进展的无根据主张的方法。