NVIDIA: Blackwell generiert Token 35-mal günstiger als Hopper — Kosten pro Token sind die einzige Metrik
Warum es wichtig ist
NVIDIA hat eine Analyse veröffentlicht, die argumentiert, dass die Kosten pro Token die einzige relevante Metrik für KI-Infrastruktur sind. Der Vergleich der Blackwell- und Hopper-Generationen zeigt, dass Blackwell pro GPU-Stunde doppelt so viel kostet, aber 65-mal mehr Token pro Sekunde generiert, was zu 35-mal niedrigeren Kosten pro Million Token führt — 0,12 Dollar gegenüber 4,20 Dollar für Hopper.
NVIDIA hat eine detaillierte Gesamtbetriebskosten-Analyse (TCO) für KI-Infrastruktur veröffentlicht und argumentiert, dass die Branche aufhören sollte, GPU-Preise zu vergleichen, und sich stattdessen ausschließlich auf eine Metrik konzentrieren sollte: die Kosten pro generiertem Token.
Wie kann Blackwell 2-mal teurer und dennoch 35-mal günstiger sein?
Das Paradoxon liegt im Durchsatz. Eine Blackwell-GPU kostet pro Nutzungsstunde etwa doppelt so viel wie die vorherige Hopper-Generation. Blackwell generiert jedoch 65-mal mehr Token pro Sekunde. Wenn die Kosten pro Million generierter Token berechnet werden, kommt Blackwell auf 0,12 Dollar gegenüber 4,20 Dollar für Hopper — 35-mal günstiger.
NVIDIA verwendet eine Analogie aus der Transportbranche: Ein LKW, der doppelt so viel Kraftstoff verbraucht, aber 65-mal mehr Fracht befördert, ist pro Kilogramm transportierter Ware dramatisch effizienter. Dasselbe gilt für KI-Inferenz — der absolute Preis einer GPU ist ohne den Kontext der Produktivität irrelevant.
Was ist der „Extreme Codesign”-Ansatz?
NVIDIA fördert das Konzept des „Extreme Codesign” — die gleichzeitige Optimierung von Hardware, Software und Netzwerkinfrastruktur als einheitliches System. Anstatt die GPU isoliert zu optimieren und die Software nachträglich anzupassen, ist die Blackwell-Plattform als integriertes Ganzes konzipiert, bei dem jede Schicht die Effizienz der anderen verstärkt.
Für Organisationen, die KI-Infrastruktur aufbauen oder mieten, ist die Botschaft klar: Der Vergleich einzelner Komponentenspezifikationen liefert ein verzerrtes Bild. Die einzige Metrik, die das Geschäftsergebnis beeinflusst, sind die Kosten für die Generierung einer Antwort für einen Endnutzer — und diese Kosten sinken mit jeder neuen Hardwaregeneration exponentiell.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
AMD Primus Projection: Werkzeug zur Vorhersage von LLM-Trainingsanforderungen vor dem Start auf Instinct-GPU-Clustern
Google stellt auf Cloud Next '26 TPU 8i und TPU 8t vor: spezialisierte Chips für agentisches KI-Computing
Gemma 4 läuft als Vision Language Agent lokal auf Jetson Orin Nano Super