Token Arena：每正确答案能耗差距达6.2倍

Yuxuan Gao、Megan Wang和Yi Ling Yu于2026年5月1日发布了Token Arena——一个在端点层面（78个端点，12个模型系列）评估AI推理的持续基准平台。研究揭示，同一模型在不同端点上的数学/代码基准成绩差异可达12.5分，尾部延迟差异可达数量级，每正确答案能耗差异可达6.2倍。平台在CC BY 4.0许可下发布结果。

Yuxuan Gao、Megan Wang和Yi Ling Yu团队于2026年5月1日在ArXiv上发布了Token Arena——一个在端点层面评估AI推理的持续基准平台。该论文旨在将能源和认知维度统一在单一测量框架中。

Token Arena测量了其他基准测试遗漏的什么？

标准AI基准测试（MMLU、HumanEval、GSM8K）在理想实验室条件下测量模型质量——没有能耗、成本或延迟维度。Token Arena采用了不同的方法：将特定提供商、模型和配置的组合作为基本测量单位。

原因：在实际生产中，应用程序消费的不是「模型X」——而是特定提供商处具有特定量化方式、特定批处理设置和特定硬件后端的端点。同一GPT-4模型在Open Router层面，根据路由的不同，可能比直接通过OpenAI API快十倍或便宜五倍。

平台同时评估五个维度：

输出速度（输出吞吐量，tokens/sec）
首字符时间（TTFT，对交互式应用至关重要）
混合价格（输入和输出的综合成本）
有效上下文（长上下文模型实际使用多少，而非名义限制）
质量（数学、代码、推理，而非仅MMLU平均值）

综合为三个复合指标：能效、每正确答案成本和端点保真度。

Token Arena发现了哪些令人意外的差距？

对78个端点、12个模型系列的测量揭示了比行业叙事所暗示的更大的差异：

同一模型在数学/代码基准测试的不同端点上质量差异达12.5分
尾部延迟（p99）差异达数量级 — 某些端点在最坏情况下慢10倍
每正确答案能耗差异达6.2倍

最后一个数字可能是最重要的。如果同一模型的两个端点在生成正确答案所需能量上相差6.2倍，选择提供商就成了可持续发展战略问题，而非仅是成本问题。2026年AI推理运营的碳足迹不再微不足道；端点之间的差异意味着某些AI部署为相同结果排放的CO₂几乎是其他部署的七倍。

这对企业的提供商选择决策意味着什么？

主要结论：端点比模型名称更重要。仅根据每Token价格选择提供商的团队，可能在质量上损失12.5分或能耗增加6倍——而在不进行涵盖全部五个维度的基准测试的情况下对此一无所知。

Token Arena在CC BY 4.0许可下发布，意味着其他组织可以重复使用结果和方法论。这在AI基准测试中很少见——大多数商业基准测试套件保持限制性许可。开放许可支持独立可重现性研究的生态系统。

论文在ArXiv上的ID为2605.00300。

常见问题

Token Arena测量了哪些其他基准测试未能测量的维度？

同时测量五个性能维度：输出速度、首字符时间（TTFT）、混合价格、有效上下文和质量——所有这些都在端点层面（提供商、模型和配置的特定组合），而非模型层面。

同一模型在不同端点之间的差异有多大？

数学/代码基准测试上差异可达12.5分，尾部延迟差异可达数量级，能效差异可达6.2倍——同一模型通过不同提供商或配置提供时均有此差异。

为什么「端点」是正确的测量对象而非模型本身？

因为端点是应用程序实际使用的单位。同一GPT-4或Llama 3模型，根据提供商、量化方式、批处理配置和硬件后端的不同，可能具有截然不同的延迟、价格和精度。

ArXiv Token Arena：统一能耗与认知的持续基准，揭示端点间每正确答案能耗6.2倍差距

Token Arena测量了其他基准测试遗漏的什么？

Token Arena发现了哪些令人意外的差距？

这对企业的提供商选择决策意味着什么？

常见问题

来源

相关新闻