训练
自监督学习
一种训练范式:模型从无标注数据中学习,通过自行构造监督信号——例如预测句子中被遮盖的 token 或下一个 token;几乎所有现代大型语言模型预训练的核心方法。
自监督学习(self-supervised learning, SSL) 是一种机器学习范式:模型从无标注数据中学习,自行为自己构造监督信号。模型不依赖人工准备的标注,而是隐藏或扭曲输入的一部分,并学习从剩余上下文中预测缺失部分。
最著名的例子是 BERT 中的 masked language modeling(遮住一个词,猜出它),以及 GPT 系列中的 next-token prediction(预测下一个 token)。在视觉领域,SimCLR 和 DINO 等模型学习预测同一张图像不同视图之间的关系。
为什么它至关重要:
Yann LeCun 称 SSL 为「智能的暗物质」,因为人类和动物正是以这种方式学习——通过观察世界而无需显式标签。SSL 是现代 AI 系统能够从数百万扩展到数万亿参数而无需相应增加标注成本的根本原因。