硬件

图形处理器 (GPU)

拥有数千个并行核心的图形处理器;如今训练和推理 AI 模型的主要硬件,市场由 NVIDIA H100/B200 主导,其 CUDA 生态构成软件护城河。

图形处理器(Graphics Processing Unit, GPU) 最初是为渲染 3D 图形而设计的,但事实证明它非常适合训练神经网络。原因在于:深度学习归根结底是大规模的并行矩阵运算,而 GPU 拥有数千个较小的核心高效地执行这些运算——这与拥有少量强力顺序核心的 CPU 形成鲜明对比。

对 AI 重要的层面:

  • Tensor Cores / Matrix Cores — 用于 FP16/FP8/INT8 矩阵乘法的专用单元(NVIDIA Volta+、AMD CDNA)
  • HBM 显存 — High Bandwidth Memory,比标准 GDDR 显存带宽高得多;H100 配 80 GB HBM3,B200 配 192 GB HBM3e
  • 互连(Interconnect) — NVLink 和 NVSwitch 允许将 8–72 张 GPU 连接为一个逻辑系统用于训练
  • CUDA 生态 — NVIDIA 的软件护城河;替代方案(ROCm、OneAPI、Triton)正在追赶但尚未成熟

当今 AI 经济与 GPU 深度绑定。NVIDIA 在 2024/2025 年凭借 H100/B200 出货成为全球市值最高的公司。用于前沿模型训练的单 GPU 集群价格高达数亿美元。

AI 加速器如 TPU(Google)和 Trainium(AWS)正试图打破垄断,特别是在大型语言模型推理环节,但在 2026 年的前沿模型训练中,GPU 仍占据主导地位。

来源

另见