Was ist der Unterschied zwischen TPU 8i und TPU 8t?

TPU 8i ist für Inferenz konzipiert — die schnelle Ausführung bereits trainierter KI-Modelle, insbesondere von Agenten, die mehrstufige Aufgaben (Reasoning, Planung, Aktionen) ausführen. TPU 8t ist für das Training der komplexesten Modelle ausgelegt und zeichnet sich durch einen großen gemeinsamen Speicherpool aus, der die Unterbringung riesiger Modelle in einer einzigen Rechenumgebung ermöglicht.

Welche technischen Spezifikationen hat Google veröffentlicht?

Google hat in dieser Ankündigung keine konkreten TFLOPs-Zahlen, HBM-Kapazitäten oder Vergleiche mit vorherigen TPU-Generationen veröffentlicht. Die Botschaft ist vorerst funktional — welcher Chip wofür gedacht ist — detaillierte Spezifikationen folgen üblicherweise in technischen Whitepapers.

Google TPU 8i und TPU 8t: Chips für agentische KI

Auf der Google Cloud Next ‘26 hat Google zwei neue TPU-Chips vorgestellt — TPU 8i und TPU 8t —, mit denen die Linie spezialisierter KI-Prozessoren formell in zwei parallele Zweige aufgeteilt wird. TPU 8i zielt auf Inferenz für KI-Agenten ab, während TPU 8t dem Training der komplexesten Modelle gewidmet ist.

Die Ankündigung kommt zu einem Zeitpunkt, an dem die Branche zunehmend von einer „agentischen Ära” des Computings spricht — einem Szenario, in dem KI-Systeme nicht nur auf Anfragen reagieren, sondern langwierige, mehrstufige Aufgaben im Namen der Nutzer ausführen. Diese Art von Betrieb erfordert eine andere Hardwareoptimierung als das klassische Chatbot-Modell.

Was macht TPU 8i genau?

TPU 8i ist ein Inferenz-Chip — konzipiert für die schnelle Ausführung bereits trainierter Modelle im Produktionsbetrieb. Google positioniert ihn speziell als Hardware für Agenten, die Reasoning, Planung und mehrstufige Workflows ohne spürbare Wartezeiten für den Nutzer ausführen müssen.

Anders als bei der klassischen Inferenz, bei der ein Modell einmal antwortet und dann fertig ist, generieren agentische Flows Dutzende oder Hunderte von Modellaufrufen innerhalb einer einzigen Nutzersitzung. Jede Millisekunde Latenz multipliziert sich mit der Anzahl der Schritte, weshalb TPU 8i auf maximalen Durchsatz bei möglichst niedrigem Energieaufwand pro Inferenz ausgelegt ist.

Google nennt in der Ankündigung keine konkreten Zahlen, betont aber, dass der Chip Teil einer „Full-Stack”-Architektur ist — vom Netzwerk über Rechenzentren bis hin zum energieeffizienten Betrieb —, deren Ziel „responsives agentisches KI für die breite Masse” ist.

Warum wird ein spezieller Chip für das Training benötigt?

TPU 8t ist für das Training der komplexesten Modelle optimiert — Google hebt besonders die Fähigkeit hervor, „selbst die komplexesten Modelle in einem einzigen, großen gemeinsamen Speicherpool” zu betreiben. Dies ist entscheidend, da moderne Frontier-Modelle (Hunderte Milliarden bis Billionen Parameter) nicht mehr in den Speicher eines einzigen Beschleunigers passen und komplexe Verteilungstechniken erfordern, die das Training verlangsamen.

Ein großer gemeinsamer Speicherraum pro Chip bedeutet weniger Inter-Chip-Kommunikation während des Trainings, was in der Praxis die Zeit und die Kosten für das Training der größten Modelle reduziert. Für Google ist dies auch eine Wettbewerbsantwort auf Nvidias Blackwell Ultra und AMDs MI400-Serie, die dasselbe Segment anvisieren.

Was bedeutet das für den Markt?

Die Aufteilung der TPU-Linie in Inferenz- und Trainings-Chips ist keine neue Branchenpraxis — sowohl Nvidia als auch AWS segmentieren ihre Beschleuniger bereits ähnlich. Aber Googles formelle Ankündigung zweier Chips am selben Tag signalisiert, dass das Unternehmen erwartet, dass Inferenz (agentisch) in den nächsten zwei Jahren das dominierende Wachstumssegment sein wird, während das Training wichtig, aber ein kleinerer Teil des gesamten KI-Computing-Markts bleibt.

Für Google-Cloud-Nutzer bedeutet dies eine präzisere Hardwareauswahl je nach Arbeitslast: TPU 8i für produktive agentische Anwendungen, TPU 8t für Forschungsteams, die eigene große Modelle trainieren. Konkrete Preise, Verfügbarkeit und Vergleiche mit früheren TPU-Generationen werden in kommenden technischen Ankündigungen erwartet.

Google stellt auf Cloud Next '26 TPU 8i und TPU 8t vor: spezialisierte Chips für agentisches KI-Computing

Was macht TPU 8i genau?

Warum wird ein spezieller Chip für das Training benötigt?

Was bedeutet das für den Markt?

Quellen

Verwandte Nachrichten