缩放定律

描述模型规模、训练数据与算力同性能之间幂律关系的经验规律，是规划大模型训练的基础。

缩放定律（scaling laws）是一组经验性的幂律关系，描述当参数数量、训练数据量与训练算力这三个量增大时，模型的损失（loss）如何平滑下降。Kaplan 等人（2020）发现，大型语言模型的性能在多个数量级范围内都遵循可预测的曲线。

其典型形式为 L(N, D) = E + A·N^−α + B·D^−β，其中 N 为参数数量，D 为词元数量。借助这些定律，研究者可以在投入巨额算力之前，先用较小、较便宜的实验来估计大模型的质量。

Hoffmann 等人（2022，“Chinchilla”）修正了该规律：在固定算力预算下，参数与数据应按相同比例同步扩大，因为早期模型普遍训练不足。如今缩放定律是规划基础模型的依据，而 2025-2026 年的讨论正转向前沿模型以及推理阶段算力（test-time compute）的扩展。

来源