🤖 24 AI
🔴 🔧 Hardware Mittwoch, 22. April 2026 · 3 Min. Lesezeit

Google stellt 8. TPU-Generation vor: zwei spezialisierte Varianten für die Ära der agentischen KI

Redaktionelle Illustration: Zwei spezialisierte TPU-Chips der 8. Generation für Training und Inferenz agentischer KI-Workloads

Warum es wichtig ist

Auf der Cloud Next '26 stellte Google die achte Generation seiner TPU-Chips in zwei spezialisierten Varianten vor — TPU 8t für das Modelltraining und TPU 8i für agentische Inferenz. Es ist die erste Generation, die gezielt für autonome KI-Agenten und mehrstufiges Reasoning entwickelt wurde.

Google stellt 8. TPU-Generation vor: zwei Varianten für die agentische KI-Ära

Am 22. April 2026 stellte Google auf seiner Cloud Next ‘26 Konferenz die achte Generation der TPU-Chips (Tensor Processing Unit) vor. Zum ersten Mal in der Geschichte der Produktlinie bietet Google zwei spezialisierte Varianten an — eine für das Training, eine für die Inferenz autonomer KI-Agenten.

Welche zwei TPU-Varianten bietet Google an?

Google nannte die neuen Chips TPU 8t und TPU 8i, wobei die Buchstabenkürzel die primären Workloads bezeichnen. TPU 8t (Training) ist auf das Training komplexer Modelle ausgerichtet und verfügt über einen großen einheitlichen Speicherpool, der es ermöglicht, große Modelle ohne Aufteilung auf mehrere Knoten zu betreiben.

TPU 8i (Inferenz) hingegen ist für das ausgelegt, was Google die „agentische Ära” nennt — eine Welt, in der autonome KI-Agenten mehrstufiges Reasoning, Planung und Aufgabenausführung in Echtzeit durchführen müssen. Die Spezialisierung bedeutet, dass Inferenz-Workloads nicht mehr auf für das Training optimierten Chips ausgeführt werden, was die Latenz senken und die Wirtschaftlichkeit für KI-Agenten-Produkte erhöhen soll.

Google betont, dass dies die erste TPU-Generation ist, die mit agentischer KI als primärem Anwendungsfall entwickelt wurde — und nicht als Nebenprodukt von Trainingshardware.

Warum erfordert agentische KI andere Hardware?

Ein klassischer Chatbot oder ein generatives KI-Modell erzeugt eine Antwort in einem einzigen Durchlauf durch das neuronale Netz. Agentische Systeme funktionieren jedoch völlig anders — ein Agent plant eine Aufgabe, ruft Werkzeuge auf, verarbeitet Ergebnisse, schlussfolgert erneut und so weiter, manchmal Dutzende von Malen pro Benutzeranfrage.

Dieses Arbeitsmuster bedeutet, dass die Latenz jedes einzelnen Inferenzaufrufs entscheidend ist. Wenn jeder Agentenschritt 2 Sekunden dauert, bedeuten zehn Schritte 20 Sekunden Wartezeit — für interaktive Anwendungen nicht akzeptabel. Google behauptet, dass TPU 8i genau für dieses Muster optimiert ist: schnelle, reaktionsfähige Inferenz für mehrstufige Workflows.

Der zweite Unterschied liegt in der Wirtschaftlichkeit. Bei agentischer Nutzung kann die Anzahl der Inferenzaufrufe 10–50 Mal höher sein als bei klassischer generativer Nutzung, was den Preis pro Token weitaus wichtiger macht. Ein dedizierter Inferenzchip verbraucht theoretisch weniger Energie pro Inferenzaufruf als ein für das Training ausgelegter Chip.

Was bedeutet das für Google Cloud und den Wettbewerb?

Die Ankündigung kommt zu einem Zeitpunkt, an dem Nvidia den KI-Hardwaremarkt mit Blackwell und der nächsten Generation dominiert, während AMD aggressiv seine MI-Serie vorantreibt. Googles Ansatz mit zwei spezialisierten Varianten ist ein Versuch, sich durch Use-Case-Optimierung zu differenzieren — nicht nur durch rohe Leistung.

Google betont eine „Full-Stack-Zweckinfrastruktur” — eine Kombination aus Chips, Netzwerk, Rechenzentren und Energieeffizienz, die „reaktionsfähige agentische KI im großen Maßstab” liefern soll. TPU 8t und 8i sind ausschließlich über Google Cloud erhältlich, was bedeutet, dass Kunden wie Anthropic (das TPUs für Claude-Modelle nutzt) und Googles eigene Gemini-Modelle direkt davon profitieren.

Es bleibt abzuwarten, ob Google konkrete Benchmark-Zahlen und Preise pro Inferenzaufruf veröffentlichen wird. Vorerst ist die Ankündigung eher strategischer Natur — ein Signal, dass agentische KI so weit gereift ist, dass sie eine eigene Hardware-Generation rechtfertigt, anstatt nur eine neue Software-Schicht über vorhandenen Chips zu sein.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.