量化

降低模型权重的数值精度（如从 FP16 降至 INT8 或 INT4），在几乎不损失准确度的前提下缩小体积并加速推理。

量化（quantization）是一种模型压缩技术，它降低模型权重和激活值的数值精度——例如把数字以 8 位或 4 位整数（INT8、INT4）存储，而非 16 位或 32 位浮点数（FP16、FP32）。

实际操作中，每个数字通过一个缩放因子，从较宽的连续区间映射到一个较小的离散值集合。这样可将模型体积缩小 2 到 4 倍，降低内存占用并加速推理，因为整数运算所需的能耗和带宽远低于浮点运算。主要有两种方法：训练后量化（PTQ），直接作用于已训练好的模型；以及量化感知训练（QAT），在训练阶段就模拟精度损失以获得更高准确度。

在 2025 至 2026 年间，量化是在普通硬件上运行大模型的关键。GGUF（llama.cpp）等格式以及 GPTQ、AWQ 等方法，让数百亿参数的模型能装入单块消费级 GPU 或本地 AI 加速器，从而让开放权重模型的使用更加普及。

量化

来源

另见