什么是TPU，它与GPU有何不同？

TPU（张量处理单元）是谷歌专为机器学习设计的定制芯片，针对神经网络中占主导地位的张量运算进行了优化。与作为通用加速器的GPU不同，TPU专门针对AI工作负载进行了优化。

TPU 8t和TPU 8i之间有什么区别？

TPU 8t（训练版）针对复杂模型训练进行了优化，拥有大容量统一内存池，可以在不拆分到多个节点的情况下容纳大型模型；而TPU 8i（推理版）专为自主AI智能体的多步推理、规划和实时任务执行而设计。

智能体AI是指能够独立规划、推理并执行多步骤任务的自主智能体。与一次性给出答案的传统聊天机器人不同，智能体需要进行数十次推理调用，因此需要针对低延迟和快速决策优化的硬件。

谷歌于2026年4月22日在Cloud Next ‘26大会上发布了第八代TPU（张量处理单元）芯片。这是该产品线历史上首次推出两种专用变体——一种用于训练，另一种用于自主AI智能体的推理。

谷歌将新芯片命名为TPU 8t和TPU 8i，字母后缀代表各自的主要工作负载。TPU 8t（训练版）专注于复杂模型的训练，配备大容量统一内存池，可在无需拆分到多个节点的情况下容纳大型模型。

TPU 8i（推理版）则专为谷歌所称的「智能体时代」而设计——在这个时代，自主AI智能体需要在实时环境中进行多步推理、规划和任务执行。这种专业化意味着推理工作负载不再运行在为训练优化的芯片上，这应当能降低延迟并提升AI智能体产品的经济效益。

谷歌强调，这是TPU系列中首款以智能体AI为主要应用场景而非训练硬件副产品来设计的芯片。

传统聊天机器人或生成式AI模型在一次神经网络前向传播中生成答案。然而，智能体系统的工作方式完全不同——智能体规划任务、调用工具、处理结果、再次推理，如此循环，有时每次用户请求会经历数十个步骤。

这种工作模式意味着单次推理调用的延迟至关重要。如果智能体的每个步骤需要2秒，十个步骤就意味着20秒的等待——对于交互式应用来说是不可接受的。谷歌声称TPU 8i正是针对这种模式进行了优化：为多步工作流提供快速、响应灵敏的推理。

另一个差异在于经济性。在智能体使用场景中，推理调用次数可能是传统生成式使用的10-50倍，因此每个token的成本变得更加重要。专用推理芯片理论上每次推理调用的能耗低于为训练设计的芯片。

此次发布恰逢英伟达凭借Blackwell及后续产品系列主导AI硬件市场，AMD积极推进MI系列之际。谷歌推出两种专用变体的做法，是试图通过用例优化而非单纯的原始性能来实现差异化。

谷歌强调「全栈专用基础设施」——芯片、网络、数据中心和能效的组合，旨在「以大规模方式提供响应灵敏的智能体AI」。TPU 8t和8i仅通过谷歌云提供，这意味着Anthropic（使用TPU运行Claude模型）和谷歌自己的Gemini模型等客户将直接受益。

目前还有待观察谷歌是否会公布具体的基准测试数据和每次推理调用的定价。目前，这次发布更多是一种战略信号——表明智能体AI已成熟到足以支撑专属硬件一代，而不仅仅是现有芯片之上的新软件层。