ArXiv Token Arena:统一能耗与认知的持续基准,揭示端点间每正确答案能耗6.2倍差距
Yuxuan Gao、Megan Wang和Yi Ling Yu于2026年5月1日发布了Token Arena——一个在端点层面(78个端点,12个模型系列)评估AI推理的持续基准平台。研究揭示,同一模型在不同端点上的数学/代码基准成绩差异可达12.5分,尾部延迟差异可达数量级,每正确答案能耗差异可达6.2倍。平台在CC BY 4.0许可下发布结果。
本文由人工智能基于一手来源生成。
Yuxuan Gao、Megan Wang和Yi Ling Yu团队于2026年5月1日在ArXiv上发布了Token Arena——一个在端点层面评估AI推理的持续基准平台。该论文旨在将能源和认知维度统一在单一测量框架中。
Token Arena测量了其他基准测试遗漏的什么?
标准AI基准测试(MMLU、HumanEval、GSM8K)在理想实验室条件下测量模型质量——没有能耗、成本或延迟维度。Token Arena采用了不同的方法:将特定提供商、模型和配置的组合作为基本测量单位。
原因:在实际生产中,应用程序消费的不是「模型X」——而是特定提供商处具有特定量化方式、特定批处理设置和特定硬件后端的端点。同一GPT-4模型在Open Router层面,根据路由的不同,可能比直接通过OpenAI API快十倍或便宜五倍。
平台同时评估五个维度:
- 输出速度(输出吞吐量,tokens/sec)
- 首字符时间(TTFT,对交互式应用至关重要)
- 混合价格(输入和输出的综合成本)
- 有效上下文(长上下文模型实际使用多少,而非名义限制)
- 质量(数学、代码、推理,而非仅MMLU平均值)
综合为三个复合指标:能效、每正确答案成本和端点保真度。
Token Arena发现了哪些令人意外的差距?
对78个端点、12个模型系列的测量揭示了比行业叙事所暗示的更大的差异:
- 同一模型在数学/代码基准测试的不同端点上质量差异达12.5分
- 尾部延迟(p99)差异达数量级 — 某些端点在最坏情况下慢10倍
- 每正确答案能耗差异达6.2倍
最后一个数字可能是最重要的。如果同一模型的两个端点在生成正确答案所需能量上相差6.2倍,选择提供商就成了可持续发展战略问题,而非仅是成本问题。2026年AI推理运营的碳足迹不再微不足道;端点之间的差异意味着某些AI部署为相同结果排放的CO₂几乎是其他部署的七倍。
这对企业的提供商选择决策意味着什么?
主要结论:端点比模型名称更重要。仅根据每Token价格选择提供商的团队,可能在质量上损失12.5分或能耗增加6倍——而在不进行涵盖全部五个维度的基准测试的情况下对此一无所知。
Token Arena在CC BY 4.0许可下发布,意味着其他组织可以重复使用结果和方法论。这在AI基准测试中很少见——大多数商业基准测试套件保持限制性许可。开放许可支持独立可重现性研究的生态系统。
论文在ArXiv上的ID为2605.00300。
常见问题
- Token Arena测量了哪些其他基准测试未能测量的维度?
- 同时测量五个性能维度:输出速度、首字符时间(TTFT)、混合价格、有效上下文和质量——所有这些都在端点层面(提供商、模型和配置的特定组合),而非模型层面。
- 同一模型在不同端点之间的差异有多大?
- 数学/代码基准测试上差异可达12.5分,尾部延迟差异可达数量级,能效差异可达6.2倍——同一模型通过不同提供商或配置提供时均有此差异。
- 为什么「端点」是正确的测量对象而非模型本身?
- 因为端点是应用程序实际使用的单位。同一GPT-4或Llama 3模型,根据提供商、量化方式、批处理配置和硬件后端的不同,可能具有截然不同的延迟、价格和精度。