訓練
自己教師あり学習(self-supervised learning)
ラベルなしデータからモデルが自ら学習目標を構築して学ぶ手法で、文中の隠されたトークンを予測する方式などが代表例であり、現代のLLMと基盤モデルの事前学習を支えます。
**自己教師あり学習(self-supervised learning、SSL)**は、ラベルなしデータから学習するパラダイムで、モデルが自分自身の監督信号を構築します。人間が用意したラベルの代わりに、入力の一部が隠されたり歪められたりし、モデルは残りのコンテキストからその欠落部分を予測することを学びます。
最もよく知られた例は、BERTにおける_masked language modeling_(単語を隠してそれを当てる)と、GPTファミリーにおける_next-token prediction_(次のトークンを予測する)です。視覚領域では、SimCLRやDINOのようなモデルが、同じ画像の異なるビュー間の関係を予測することを学びます。
なぜ重要か:
- 手動ラベル付けというボトルネックを排除します — インターネット、書籍、コードはすでに膨大な量で存在しています
- 今日のほぼすべての大規模言語モデルと基盤モデルの学習の基礎を形成します
- 学習された表現は、その後はるかに少ないラベル付き例で特定のタスクへファインチューニングされます
Yann LeCunはSSLを「知能のダークマター」と呼んでいます。人間や動物は主にこのように学習するからです — 明示的なラベルなしに世界を観察することによって。SSLは、現代のAIシステムがラベル付けコストの比例的な増加なしに、数百万から数兆のパラメータへとスケールできた理由です。