NVIDIA: Blackwell generiert Token 35-mal günstiger als Hopper — Kosten pro Token sind die einzige Metrik
Warum es wichtig ist
NVIDIA hat eine Analyse veröffentlicht, die argumentiert, dass die Kosten pro Token die einzige relevante Metrik für KI-Infrastruktur sind. Der Vergleich der Blackwell- und Hopper-Generationen zeigt, dass Blackwell pro GPU-Stunde doppelt so viel kostet, aber 65-mal mehr Token pro Sekunde generiert, was zu 35-mal niedrigeren Kosten pro Million Token führt — 0,12 Dollar gegenüber 4,20 Dollar für Hopper.
NVIDIA hat eine detaillierte Gesamtbetriebskosten-Analyse (TCO) für KI-Infrastruktur veröffentlicht und argumentiert, dass die Branche aufhören sollte, GPU-Preise zu vergleichen, und sich stattdessen ausschließlich auf eine Metrik konzentrieren sollte: die Kosten pro generiertem Token.
Wie kann Blackwell 2-mal teurer und dennoch 35-mal günstiger sein?
Das Paradoxon liegt im Durchsatz. Eine Blackwell-GPU kostet pro Nutzungsstunde etwa doppelt so viel wie die vorherige Hopper-Generation. Blackwell generiert jedoch 65-mal mehr Token pro Sekunde. Wenn die Kosten pro Million generierter Token berechnet werden, kommt Blackwell auf 0,12 Dollar gegenüber 4,20 Dollar für Hopper — 35-mal günstiger.
NVIDIA verwendet eine Analogie aus der Transportbranche: Ein LKW, der doppelt so viel Kraftstoff verbraucht, aber 65-mal mehr Fracht befördert, ist pro Kilogramm transportierter Ware dramatisch effizienter. Dasselbe gilt für KI-Inferenz — der absolute Preis einer GPU ist ohne den Kontext der Produktivität irrelevant.
Was ist der „Extreme Codesign”-Ansatz?
NVIDIA fördert das Konzept des „Extreme Codesign” — die gleichzeitige Optimierung von Hardware, Software und Netzwerkinfrastruktur als einheitliches System. Anstatt die GPU isoliert zu optimieren und die Software nachträglich anzupassen, ist die Blackwell-Plattform als integriertes Ganzes konzipiert, bei dem jede Schicht die Effizienz der anderen verstärkt.
Für Organisationen, die KI-Infrastruktur aufbauen oder mieten, ist die Botschaft klar: Der Vergleich einzelner Komponentenspezifikationen liefert ein verzerrtes Bild. Die einzige Metrik, die das Geschäftsergebnis beeinflusst, sind die Kosten für die Generierung einer Antwort für einen Endnutzer — und diese Kosten sinken mit jeder neuen Hardwaregeneration exponentiell.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Google stellt auf Cloud Next '26 TPU 8i und TPU 8t vor: spezialisierte Chips für agentisches KI-Computing
Gemma 4 läuft als Vision Language Agent lokal auf Jetson Orin Nano Super
NVIDIA und Google Cloud kündigen Zusammenarbeit für Agentic AI und Physical AI auf gemeinsamer Infrastruktur an