训练
合成数据 (Synthetic Data)
由模型或仿真人工生成的数据,用于在训练和评估 AI 模型时补充或替代人工采集的数据,可缓解数据稀缺并保护隐私。
合成数据(synthetic data) 是人工生成、用于模仿真实数据模式而非源自真实事件的数据。它由算法、仿真或 AI 模型本身产生,用于在训练和评估模型时补充或完全替代人工采集的数据集。
在当前实践中,强大的「教师」模型会生成提示、答案或标签,供另一个模型训练——这一做法与知识蒸馏密切相关。由此可得到用于微调的数据、思维链推理语料,以及用于 RLHF 的偏好对。仿真与程序化生成还能填补稀有或涉及隐私的场景,且标注往往比人工标注更精确。
2025–2026 年这一话题尤为热门,因为高质量人类网络文本日渐枯竭(即「数据墙」)。研究警告,当模型主要在自身输出上训练时会出现模型崩溃,因此业界强调事实性、保真度与无偏性,并混入真实数据,使模型锚定于现实。