TPU (Tensor Processing Unit)

Eine TPU (Tensor Processing Unit) ist ein anwendungsspezifischer integrierter Schaltkreis (ASIC), den Google eigens zur Beschleunigung von Workloads im maschinellen Lernen entwickelt hat. Anders als eine universelle GPU ist eine TPU ausschließlich für die massiven Matrixoperationen ausgelegt, die den Kern der Berechnung neuronaler Netze bilden.

Ihre Architektur beruht auf einem systolischen Array von Verarbeitungseinheiten, die Matrixmultiplikationen mit geringer Genauigkeit (etwa 8 Bit oder FP4/BF16 bei neueren Modellen) ausführen und so hohen Durchsatz bei guter Energieeffizienz erreichen. Google nutzt TPUs seit 2015 intern und stellt sie seit 2018 über Google Cloud auch externen Kunden bereit. Die Chips werden gemeinsam mit Broadcom entworfen und bei TSMC gefertigt.

TPUs sind ein zentraler Bestandteil von Googles KI-Infrastruktur und treiben sowohl das Training als auch die Inferenz von Modellen wie der Gemini-Familie an. Neuere Generationen — Trillium (v6), Ironwood (v7) sowie die für 2026 angekündigten, nach Training und Inferenz getrennten Varianten — machen die TPU zu Googles wichtigster Antwort auf Nvidias GPU-Dominanz im Deep Learning.

Quellen

Siehe auch