Was ist ein TPU und wie unterscheidet er sich von einer GPU?

Ein TPU (Tensor Processing Unit) ist Googles spezieller Chip für maschinelles Lernen, optimiert für Tensoroperationen, die in neuronalen Netzen dominieren. Im Gegensatz zur GPU, die ein allgemeinerer Beschleuniger ist, ist der TPU ausschließlich auf KI-Workloads ausgerichtet.

Was ist der Unterschied zwischen TPU 8t und TPU 8i?

TPU 8t (Training) ist für das Training komplexer Modelle mit einem großen einheitlichen Speicherpool optimiert, während TPU 8i (Inferenz) für den Betrieb autonomer KI-Agenten und mehrstufiges Reasoning in Echtzeit ausgelegt ist.

Was bedeutet die 'agentische KI-Ära' und warum braucht sie spezialisierte Hardware?

Agentische KI bezeichnet autonome Agenten, die selbstständig planen, schlussfolgern und mehrstufige Aufgaben ausführen. Anders als ein klassischer Chatbot, der eine einzelne Antwort liefert, führen Agenten Dutzende von Inferenzaufrufen durch und benötigen Hardware, die auf niedrige Latenz und schnelle Entscheidungsfindung optimiert ist.

Google stellt 8. TPU-Generation vor: zwei Varianten für die agentische KI-Ära

Am 22. April 2026 stellte Google auf seiner Cloud Next ‘26 Konferenz die achte Generation der TPU-Chips (Tensor Processing Unit) vor. Zum ersten Mal in der Geschichte der Produktlinie bietet Google zwei spezialisierte Varianten an — eine für das Training, eine für die Inferenz autonomer KI-Agenten.

Welche zwei TPU-Varianten bietet Google an?

Google nannte die neuen Chips TPU 8t und TPU 8i, wobei die Buchstabenkürzel die primären Workloads bezeichnen. TPU 8t (Training) ist auf das Training komplexer Modelle ausgerichtet und verfügt über einen großen einheitlichen Speicherpool, der es ermöglicht, große Modelle ohne Aufteilung auf mehrere Knoten zu betreiben.

TPU 8i (Inferenz) hingegen ist für das ausgelegt, was Google die „agentische Ära” nennt — eine Welt, in der autonome KI-Agenten mehrstufiges Reasoning, Planung und Aufgabenausführung in Echtzeit durchführen müssen. Die Spezialisierung bedeutet, dass Inferenz-Workloads nicht mehr auf für das Training optimierten Chips ausgeführt werden, was die Latenz senken und die Wirtschaftlichkeit für KI-Agenten-Produkte erhöhen soll.

Google betont, dass dies die erste TPU-Generation ist, die mit agentischer KI als primärem Anwendungsfall entwickelt wurde — und nicht als Nebenprodukt von Trainingshardware.

Warum erfordert agentische KI andere Hardware?

Ein klassischer Chatbot oder ein generatives KI-Modell erzeugt eine Antwort in einem einzigen Durchlauf durch das neuronale Netz. Agentische Systeme funktionieren jedoch völlig anders — ein Agent plant eine Aufgabe, ruft Werkzeuge auf, verarbeitet Ergebnisse, schlussfolgert erneut und so weiter, manchmal Dutzende von Malen pro Benutzeranfrage.

Dieses Arbeitsmuster bedeutet, dass die Latenz jedes einzelnen Inferenzaufrufs entscheidend ist. Wenn jeder Agentenschritt 2 Sekunden dauert, bedeuten zehn Schritte 20 Sekunden Wartezeit — für interaktive Anwendungen nicht akzeptabel. Google behauptet, dass TPU 8i genau für dieses Muster optimiert ist: schnelle, reaktionsfähige Inferenz für mehrstufige Workflows.

Der zweite Unterschied liegt in der Wirtschaftlichkeit. Bei agentischer Nutzung kann die Anzahl der Inferenzaufrufe 10–50 Mal höher sein als bei klassischer generativer Nutzung, was den Preis pro Token weitaus wichtiger macht. Ein dedizierter Inferenzchip verbraucht theoretisch weniger Energie pro Inferenzaufruf als ein für das Training ausgelegter Chip.

Was bedeutet das für Google Cloud und den Wettbewerb?

Die Ankündigung kommt zu einem Zeitpunkt, an dem Nvidia den KI-Hardwaremarkt mit Blackwell und der nächsten Generation dominiert, während AMD aggressiv seine MI-Serie vorantreibt. Googles Ansatz mit zwei spezialisierten Varianten ist ein Versuch, sich durch Use-Case-Optimierung zu differenzieren — nicht nur durch rohe Leistung.

Google betont eine „Full-Stack-Zweckinfrastruktur” — eine Kombination aus Chips, Netzwerk, Rechenzentren und Energieeffizienz, die „reaktionsfähige agentische KI im großen Maßstab” liefern soll. TPU 8t und 8i sind ausschließlich über Google Cloud erhältlich, was bedeutet, dass Kunden wie Anthropic (das TPUs für Claude-Modelle nutzt) und Googles eigene Gemini-Modelle direkt davon profitieren.

Es bleibt abzuwarten, ob Google konkrete Benchmark-Zahlen und Preise pro Inferenzaufruf veröffentlichen wird. Vorerst ist die Ankündigung eher strategischer Natur — ein Signal, dass agentische KI so weit gereift ist, dass sie eine eigene Hardware-Generation rechtfertigt, anstatt nur eine neue Software-Schicht über vorhandenen Chips zu sein.

Google stellt 8. TPU-Generation vor: zwei spezialisierte Varianten für die Ära der agentischen KI

Google stellt 8. TPU-Generation vor: zwei Varianten für die agentische KI-Ära

Welche zwei TPU-Varianten bietet Google an?

Warum erfordert agentische KI andere Hardware?

Was bedeutet das für Google Cloud und den Wettbewerb?

Quellen

Verwandte Nachrichten