硬件
AI 加速器 (NPU/TPU)
面向 AI 工作负载设计的专用芯片——手机中的 NPU、Google 的 TPU、AWS Trainium——通常比 GPU 更快、单位成本效率更高。
AI 加速器是专门为神经网络设计的芯片——与从图形演化而来的 GPU 不同,加速器从一开始就为矩阵乘法、低精度数(FP8、INT8、INT4)、tensor 运算以及特定的内存访问模式而优化。
主要类别:
- TPU(Tensor Processing Unit) — Google 的芯片,用于内部训练(Gemini)以及通过 Google Cloud 提供;当前一代为 TPU v5p 和 TPU v6e(Trillium)
- NPU(Neural Processing Unit) — 手机、笔记本和边缘设备中端侧加速器的统称;包括 Apple Neural Engine、Qualcomm Hexagon NPU,以及 Copilot+ PC 中的 Intel/AMD NPU
- AWS Trainium / Inferentia — 亚马逊用于 AWS 中训练和推理的芯片,定价激进地对标 NVIDIA
- 专用 LLM 芯片 — Groq LPU、Cerebras WSE、SambaNova RDU,均为推理极致吞吐量而设计
市场逻辑很明确:GPU 昂贵、稀缺,且(直到不久前)几乎 100% 由 NVIDIA 提供。超大规模云厂商(Google、Amazon、Meta、Microsoft)正在开发自有加速器,以减少对 NVIDIA 的依赖并降低利润流失。在端侧,每台现代手机和笔记本中的 NPU 让本地运行小型大型语言模型成为可能,无需将数据发送到云端。
边界仍是软件:CUDA 和 NVIDIA 生态依然是黄金标准,替代栈正在逐步成熟。