훈련
자기지도 학습 (self-supervised learning)
레이블 없는 데이터에서 모델이 스스로 학습 목표를 만들어 학습하는 방법으로, 문장 내 가려진 토큰을 예측하는 방식이 대표적이며 LLM 사전학습의 토대입니다.
**자기지도 학습 (self-supervised learning, SSL)**은 모델이 스스로 자신의 지도 신호를 구성함으로써 레이블이 없는 데이터로부터 학습하는 머신러닝 패러다임입니다. 사람이 준비한 레이블 대신, 입력의 일부가 가려지거나 왜곡되며, 모델은 나머지 컨텍스트로부터 그 누락된 부분을 예측하는 법을 배웁니다.
가장 잘 알려진 예는 BERT의 masked language modeling (단어를 가리고 그것을 맞히기)과 GPT 계열의 next-token prediction (다음 토큰을 예측하기)입니다. 비전 영역에서는 SimCLR과 DINO 같은 모델이 동일한 이미지의 서로 다른 뷰 사이의 관계를 예측하는 법을 배웁니다.
왜 중요한가:
- 수동 데이터 레이블링이라는 병목을 제거합니다 — 인터넷, 책, 코드는 이미 거대한 양으로 존재합니다
- 오늘날 거의 모든 대규모 언어 모델 (LLM)과 파운데이션 모델 학습의 기초를 형성합니다
- 학습된 표현은 그 다음 훨씬 더 적은 레이블 예시로 특정 작업에 파인튜닝됩니다
Yann LeCun은 SSL을 “지능의 암흑 물질”이라고 부릅니다. 인간과 동물이 주로 이런 방식으로 학습하기 때문입니다 — 명시적인 레이블 없이 세상을 관찰함으로써. SSL은 현대 AI 시스템이 레이블링 비용의 비례적인 증가 없이 수백만에서 수조 개의 파라미터로 확장할 수 있었던 이유입니다.