硬件

TPU(张量处理单元)

TPU 是谷歌为加速机器学习而定制的 ASIC 芯片,专为神经网络训练与推理中的矩阵运算而优化。

TPUTensor Processing Unit,张量处理单元)是谷歌专门为加速机器学习工作负载而开发的专用集成电路(ASIC)。与通用的 GPU 不同,TPU 只为构成神经网络计算核心的大规模矩阵运算而设计。

其架构以处理单元构成的脉动阵列(systolic array)为核心,以低精度(例如 8 位,或新型号中的 FP4/BF16)执行矩阵乘法,从而实现高吞吐量与出色的能效。谷歌自 2015 年起在内部使用 TPU,并于 2018 年通过 Google Cloud 向外部客户开放。芯片由谷歌与博通共同设计,并由台积电制造。

TPU 是谷歌 AI 基础设施的核心,既支撑模型训练,也支撑 Gemini 等模型的推理。最新一代——Trillium(v6)、Ironwood(v7)以及为 2026 年预告的训练与推理分离版本——使 TPU 持续成为谷歌在深度学习领域对抗英伟达 GPU 主导地位的主力。

来源

另见