图形处理器 (GPU)

图形处理器（Graphics Processing Unit, GPU） 最初是为渲染 3D 图形而设计的，但事实证明它非常适合训练神经网络。原因在于：深度学习归根结底是大规模的并行矩阵运算，而 GPU 拥有数千个较小的核心高效地执行这些运算——这与拥有少量强力顺序核心的 CPU 形成鲜明对比。

对 AI 重要的层面：

Tensor Cores / Matrix Cores — 用于 FP16/FP8/INT8 矩阵乘法的专用单元（NVIDIA Volta+、AMD CDNA）
HBM 显存 — High Bandwidth Memory，比标准 GDDR 显存带宽高得多；H100 配 80 GB HBM3，B200 配 192 GB HBM3e
互连（Interconnect） — NVLink 和 NVSwitch 允许将 8–72 张 GPU 连接为一个逻辑系统用于训练
CUDA 生态 — NVIDIA 的软件护城河；替代方案（ROCm、OneAPI、Triton）正在追赶但尚未成熟

当今 AI 经济与 GPU 深度绑定。NVIDIA 在 2024/2025 年凭借 H100/B200 出货成为全球市值最高的公司。用于前沿模型训练的单 GPU 集群价格高达数亿美元。

AI 加速器如 TPU（Google）和 Trainium（AWS）正试图打破垄断，特别是在大型语言模型的推理环节，但在 2026 年的前沿模型训练中，GPU 仍占据主导地位。

来源

另见