AI 加速器 (NPU/TPU)

AI 加速器是专门为神经网络设计的芯片——与从图形演化而来的 GPU 不同，加速器从一开始就为矩阵乘法、低精度数（FP8、INT8、INT4）、tensor 运算以及特定的内存访问模式而优化。

主要类别：

TPU（Tensor Processing Unit） — Google 的芯片，用于内部训练（Gemini）以及通过 Google Cloud 提供；当前一代为 TPU v5p 和 TPU v6e（Trillium）
NPU（Neural Processing Unit） — 手机、笔记本和边缘设备中端侧加速器的统称；包括 Apple Neural Engine、Qualcomm Hexagon NPU，以及 Copilot+ PC 中的 Intel/AMD NPU
AWS Trainium / Inferentia — 亚马逊用于 AWS 中训练和推理的芯片，定价激进地对标 NVIDIA
专用 LLM 芯片 — Groq LPU、Cerebras WSE、SambaNova RDU，均为推理极致吞吐量而设计

市场逻辑很明确：GPU 昂贵、稀缺，且（直到不久前）几乎 100% 由 NVIDIA 提供。超大规模云厂商（Google、Amazon、Meta、Microsoft）正在开发自有加速器，以减少对 NVIDIA 的依赖并降低利润流失。在端侧，每台现代手机和笔记本中的 NPU 让本地运行小型大型语言模型成为可能，无需将数据发送到云端。

边界仍是软件：CUDA 和 NVIDIA 生态依然是黄金标准，替代栈正在逐步成熟。

来源

另见