LoRA（低秩适配）

一种参数高效微调技术，冻结基础模型的全部权重，仅训练注入各层的小型低秩适配器矩阵，而非更新所有参数，从而大幅降低训练成本。

**LoRA（低秩适配，Low-Rank Adaptation）**是由微软的 Hu 等人于 2021 年提出的参数高效微调方法。它不更新大模型的全部权重，而是将其冻结，并在每一层注入一对小型可训练的低秩矩阵，用两者的乘积来近似所需的权重变化。

该方法基于一个观察：微调过程中权重的变化具有较低的「内在秩」，因此可用远少的参数来刻画。对于像 GPT-3（1750 亿参数）这样的大型语言模型，这可将可训练参数减少多达 1 万倍，并将 GPU 显存需求降低数倍。训练完成后，适配器可合并回基础权重，因此不会增加推理延迟。

在 2025-2026 年，LoRA 已成为低成本适配 Llama 等开源模型的事实标准，与量化结合（即 QLoRA）后，甚至能在单张消费级 GPU 上完成微调。小巧且可移植的适配器（通常小于 100 MB）使其成为模型定制生态的核心支柱。

来源