基础

缩放定律

描述模型规模、训练数据与算力同性能之间幂律关系的经验规律,是规划大模型训练的基础。

缩放定律scaling laws)是一组经验性的幂律关系,描述当参数数量、训练数据量与训练算力这三个量增大时,模型的损失(loss)如何平滑下降。Kaplan 等人(2020)发现,大型语言模型的性能在多个数量级范围内都遵循可预测的曲线。

其典型形式为 L(N, D) = E + A·N^−α + B·D^−β,其中 N 为参数数量,D 为词元数量。借助这些定律,研究者可以在投入巨额算力之前,先用较小、较便宜的实验来估计大模型的质量。

Hoffmann 等人(2022,“Chinchilla”)修正了该规律:在固定算力预算下,参数与数据应按相同比例同步扩大,因为早期模型普遍训练不足。如今缩放定律是规划基础模型的依据,而 2025-2026 年的讨论正转向前沿模型以及推理阶段算力(test-time compute)的扩展。

来源

另见