训练
LoRA(低秩适配)
一种参数高效微调技术,冻结基础模型的全部权重,仅训练注入各层的小型低秩适配器矩阵,而非更新所有参数,从而大幅降低训练成本。
**LoRA(低秩适配,Low-Rank Adaptation)**是由微软的 Hu 等人于 2021 年提出的参数高效微调方法。它不更新大模型的全部权重,而是将其冻结,并在每一层注入一对小型可训练的低秩矩阵,用两者的乘积来近似所需的权重变化。
该方法基于一个观察:微调过程中权重的变化具有较低的「内在秩」,因此可用远少的参数来刻画。对于像 GPT-3(1750 亿参数)这样的大型语言模型,这可将可训练参数减少多达 1 万倍,并将 GPU 显存需求降低数倍。训练完成后,适配器可合并回基础权重,因此不会增加推理延迟。
在 2025-2026 年,LoRA 已成为低成本适配 Llama 等开源模型的事实标准,与量化结合(即 QLoRA)后,甚至能在单张消费级 GPU 上完成微调。小巧且可移植的适配器(通常小于 100 MB)使其成为模型定制生态的核心支柱。