基础设施

量化

降低模型权重的数值精度(如从 FP16 降至 INT8 或 INT4),在几乎不损失准确度的前提下缩小体积并加速推理。

量化quantization)是一种模型压缩技术,它降低模型权重和激活值的数值精度——例如把数字以 8 位或 4 位整数(INT8、INT4)存储,而非 16 位或 32 位浮点数(FP16、FP32)。

实际操作中,每个数字通过一个缩放因子,从较宽的连续区间映射到一个较小的离散值集合。这样可将模型体积缩小 2 到 4 倍,降低内存占用并加速推理,因为整数运算所需的能耗和带宽远低于浮点运算。主要有两种方法:训练后量化(PTQ),直接作用于已训练好的模型;以及量化感知训练(QAT),在训练阶段就模拟精度损失以获得更高准确度。

在 2025 至 2026 年间,量化是在普通硬件上运行大模型的关键。GGUF(llama.cpp)等格式以及 GPTQ、AWQ 等方法,让数百亿参数的模型能装入单块消费级 GPU 或本地 AI 加速器,从而让开放权重模型的使用更加普及。

来源

另见