🟡 🤖 Modelle Dienstag, 5. Mai 2026 · 3 Min. Lesezeit ·

ArXiv Token Arena: kontinuierlicher Benchmark für Energie und Kognition zeigt 6,2-fachen Unterschied in Joule pro korrekter Antwort zwischen Endpunkten

Redaktionelle Illustration: Waage, die Energie und Kognition von KI-Inferenz-Endpunkten misst, Symbolik für mehrdimensionales Benchmarking

Yuxuan Gao, Megan Wang und Yi Ling Yu veröffentlichten am 1. Mai 2026 Token Arena — eine kontinuierliche Benchmarking-Plattform, die KI-Inferenz auf Endpunkt-Ebene evaluiert (78 Endpunkte, 12 Modellfamilien). Sie stellen fest, dass dasselbe Modell auf verschiedenen Endpunkten um bis zu 12,5 Punkte beim Math/Code-Benchmark variieren kann, um bis zu eine Größenordnung bei der Tail-Latenz und um den Faktor 6,2 bei Joule pro korrekter Antwort. Ergebnisse werden unter CC BY 4.0 veröffentlicht.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Das Team aus Yuxuan Gao, Megan Wang und Yi Ling Yu veröffentlichte am 1. Mai 2026 auf ArXiv Token Arena — eine kontinuierliche Benchmarking-Plattform, die KI-Inferenz auf Endpunkt-Ebene evaluiert. Ziel der Arbeit ist es, Energie- und Kognitionsdimensionen in einem einzigen Messrahmen zu vereinen.

Was misst Token Arena, was andere Benchmarks übersehen?

Standard-KI-Benchmarks (MMLU, HumanEval, GSM8K) messen Modellqualität unter idealen Laborbedingungen — ohne Energie-, Kosten- oder Latenz-Dimensionen. Token Arena verfolgt einen anderen Ansatz: Es misst die spezifische Kombination aus Anbieter, Modell und Konfiguration als grundlegende Messeinheit.

Der Grund: In der realen Produktion konsumiert eine Anwendung nicht einfach „Modell X” — sie konsumiert einen Endpunkt bei einem bestimmten Anbieter mit einer bestimmten Quantisierung, bestimmten Batch-Einstellungen und einem bestimmten Hardware-Backend. Dasselbe GPT-4-Modell über Open Router kann um eine Größenordnung schneller oder fünfmal günstiger sein als direkt über die OpenAI-API, je nach Route.

Die Plattform evaluiert fünf Dimensionen gleichzeitig:

  1. Ausgabedurchsatz (Tokens/Sek.)
  2. Zeit bis zum ersten Token (TTFT, kritisch für interaktive Anwendungen)
  3. Kombinierter Preis (gemeinsame Input- und Output-Kosten)
  4. Effektiver Kontext (wie viel Langkontext das Modell tatsächlich nutzt, nicht das nominale Limit)
  5. Qualität (Mathematik, Code, Schlussfolgern, nicht nur MMLU-Durchschnitt)

Zusammengefasst in drei Kennzahlen: Energieeffizienz, Kosten pro korrekter Antwort und Endpunkt-Treue.

Welche überraschenden Unterschiede hat Token Arena entdeckt?

Messungen über 78 Endpunkte in 12 Modellfamilien zeigten Unterschiede, die größer sind als das Branchen-Narrativ vermuten lässt:

  • Bis zu 12,5 Punkte Unterschied in der Qualität für dasselbe Modell auf verschiedenen Endpunkten bei Math/Code-Benchmarks
  • Eine Größenordnung Unterschied bei Tail-Latenz (p99) — einige Endpunkte sind im schlimmsten Fall 10× langsamer
  • Faktor 6,2 Unterschied bei Joule pro korrekter Antwort

Die letzte Zahl ist möglicherweise die bedeutsamste. Wenn sich zwei Endpunkte desselben Modells um 6,2× beim Energiebedarf für eine korrekte Antwort unterscheiden, wird die Anbieterwahl zur Frage der Nachhaltigkeitsstrategie, nicht nur der Kosten. Der CO₂-Fußabdruck von KI-Inferenz-Operationen im Jahr 2026 ist nicht mehr trivial.

Was bedeutet das für Unternehmen bei der Anbieterwahl?

Die Hauptschlussfolgerung: Der Endpunkt ist wichtiger als der Modellname. Ein Team, das einen Anbieter allein auf Basis des Preises pro Token auswählt, kann mit 12,5 Punkten schlechterer Qualität oder 6× höheren Energiekosten enden — ohne es ohne Benchmarking über alle fünf Dimensionen zu wissen.

Token Arena wird unter der Lizenz CC BY 4.0 veröffentlicht, was es anderen Organisationen ermöglicht, Ergebnisse und Methodik weiterzuverwenden. Das ist selten für KI-Benchmarks — die meisten kommerziellen Benchmark-Suites bleiben unter restriktiven Lizenzen.

Das Paper ist auf ArXiv unter ID 2605.00300 verfügbar.

Häufig gestellte Fragen

Was misst Token Arena, was andere Benchmarks übersehen?
Fünf Leistungsdimensionen gleichzeitig: Ausgabedurchsatz, Zeit bis zum ersten Token, kombinierten Preis, effektiven Kontext und Qualität — alles auf Endpunkt-Ebene (spezifische Kombinationen aus Anbieter, Modell und Konfiguration), nicht auf Modell-Ebene.
Wie stark variiert dasselbe Modell zwischen verschiedenen Endpunkten?
Bis zu 12,5 Punkte Unterschied bei Math/Code-Benchmarks, bis zu eine Größenordnung bei Tail-Latenz und bis zum Faktor 6,2 bei Energieeffizienz — alles beim gleichen Modell, über verschiedene Anbieter oder Konfigurationen.
Warum ist der Endpunkt die richtige Messeinheit statt des Modells selbst?
Weil der Endpunkt die tatsächliche Einheit ist, die eine Anwendung konsumiert. Dasselbe GPT-4- oder Llama-3-Modell kann je nach Anbieter, Quantisierung, Batch-Konfiguration und Hardware-Backend drastisch unterschiedliche Latenzen, Kosten und Genauigkeiten haben.