训练
微调(Fine-tuning)
在较小规模的精选数据集上对已预训练语言模型进行继续训练的过程,使其在保留通用语言能力的前提下,更精准地适应特定任务、专业领域或特定输出风格与格式要求。
**微调(Fine-tuning)**是指在较小的精选数据集上对已预训练的大型语言模型进行继续训练,使其专注于特定任务、领域或风格的过程。模型在保留通用语言能力的同时,通过调整权重来适应新的目标。
常见的微调原因:
- 领域专业化 — 法律、医疗、金融等专业语言
- 品牌语气 — 保持产品一致的表达风格
- 任务专项化 — 提升函数调用的可靠性、生成结构化输出
- 性能提升 — 小型微调模型在特定任务上可超越更大的通用模型
现代实践普遍采用参数高效微调(PEFT)——LoRA、QLoRA——只在冻结的基础权重之上训练一个小型适配器。这将 VRAM 需求降低 10 至 100 倍,使在单张 GPU 上进行微调成为可能。完整微调(更新所有权重)仅适用于最大规模的项目。
微调不同于:
- **预训练(Pre-training):**在完整 Web 语料上进行的初始训练
- **RLHF / DPO:**基于人类偏好的对齐(通常是微调的一个阶段)
- **提示工程(Prompt Engineering):**仅修改输入,不改变模型
- **RAG:**在推理时检索上下文,不修改模型本身
对于 2026 年大多数产品使用场景,RAG 和提示工程无需微调即可达到可接受的质量。当任务范围狭窄且可重复,并拥有至少数百个高质量示例时,微调才真正物有所值。