ArXiv Token Arena:エネルギーと認知を統合する継続的ベンチマーク、エンドポイント間で正解あたりエネルギーの6.2倍の差を発見
Yuxuan Gao、Megan Wang、Yi Ling Yuは2026年5月1日、Token Arenaを発表しました——エンドポイントレベル(78エンドポイント、12モデルファミリー)でAI推論を評価する継続的ベンチマークプラットフォームです。同一モデルが異なるエンドポイント間でmath/codeベンチマークが最大12.5点差、テールレイテンシが桁違い、正解あたりエネルギーが最大6.2倍異なることを明らかにしました。プラットフォームはCC BY 4.0ライセンスの下で結果を公開しています。
この記事はAIにより一次情報源から生成されました。
Yuxuan Gao、Megan Wang、Yi Ling Yuのチームは2026年5月1日にArXivでToken Arena——エンドポイントレベルでAI推論を評価する継続的ベンチマークプラットフォームを発表しました。この論文の目的はエネルギーと認知の次元を単一の測定フレームワークに統合することです。
Token Arenaは他のベンチマークが見落としている何を測定するか?
標準的なAIベンチマーク(MMLU、HumanEval、GSM8K)は理想的な実験室条件下でモデルの品質を測定します——エネルギー、コスト、レイテンシの次元なしに。Token Arenaは異なるアプローチをとります:特定のプロバイダー、モデル、設定の組み合わせを基本的な測定単位として扱います。
理由:実際の本番環境では、アプリケーションは「モデルX」を消費するのではなく——特定のプロバイダーで特定の量子化、特定のバッチ設定、特定のハードウェアバックエンドを持つエンドポイントを消費します。同じGPT-4モデルが、Open Routerのレベルでは、ルートによってOpenAI APIを直接使用するより10倍速いか5倍安い場合があります。
プラットフォームは5つの次元を同時に評価します:
- 出力速度(出力スループット、tokens/sec)
- 最初のトークンまでの時間(TTFT、インタラクティブアプリケーションにとって重要)
- ブレンド価格(入力と出力の複合コスト)
- 有効コンテキスト(ロングコンテキストモデルが実際にどれだけ使用するか、名目上の制限ではなく)
- 品質(数学、コード、推論、MMLUの平均だけでなく)
3つの複合指標に集約:エネルギー効率、正解あたりコスト、エンドポイント忠実度。
Token Arenaが発見した意外な差は?
12モデルファミリーにわたる78エンドポイントの測定で、業界の通説が示唆するよりも大きな差が明らかになりました:
- math/codeベンチマークで同一モデルの異なるエンドポイント間で最大12.5点の品質差
- テールレイテンシ(p99)で桁違いの差 — 一部のエンドポイントは最悪ケースで10倍遅い
- 正解あたりエネルギーで6.2倍の差
最後の数字がおそらく最も重要です。同じモデルの2つのエンドポイントが正しい答えを生成するために必要なエネルギーで6.2倍異なる場合、プロバイダーの選択はコストだけの問題ではなくサステナビリティ戦略の問題になります。2026年のAI推論運用のカーボンフットプリントはもはや些細ではありません;エンドポイント間の差は、一部のAIデプロイメントが同じ結果に対して他のほぼ7倍のCO₂を排出することを意味します。
これはエンタープライズのプロバイダー選択決定にとって何を意味するか?
主要な結論:エンドポイントはモデル名より重要です。トークン単価だけでプロバイダーを選択したチームは、品質で12.5点損なうか、エネルギーコストが6倍になる可能性があります——5つの次元すべてをカバーするベンチマークなしにはそれを知ることができません。
Token ArenaはCC BY 4.0ライセンスの下で公開されており、他の組織が結果と方法論を再利用できます。これはAIベンチマークでは珍しい——ほとんどの商業ベンチマークスイートは制限的なライセンスのままです。オープンライセンスは独立した再現性研究のエコシステムを支援します。
論文はArXivでID 2605.00300として公開されています。
よくある質問
- Token Arenaは他のベンチマークが見落としている何を測定しますか?
- 5つのパフォーマンス次元を同時に測定します:出力速度、最初のトークンまでの時間(TTFT)、ブレンド価格、有効コンテキスト、品質——これらすべてをモデルレベルではなくエンドポイントレベル(特定のプロバイダー、モデル、設定の組み合わせ)で測定します。
- 同一モデルが異なるエンドポイント間でどのくらい異なりますか?
- math/codeベンチマークで最大12.5点差、テールレイテンシで桁違い、エネルギー効率で最大6.2倍の差——すべて同じモデルを異なるプロバイダーや設定で提供した場合です。
- なぜ「エンドポイント」がモデル自体より正しい測定対象なのですか?
- エンドポイントがアプリケーションが実際に消費する単位だからです。同じGPT-4やLlama 3モデルでも、プロバイダー、量子化、バッチ設定、ハードウェアバックエンドによって、レイテンシ、価格、精度が大きく異なる可能性があります。