훈련

지식 증류 (knowledge distillation)

큰 교사 모델의 출력을 작은 학생 모델이 모방하도록 학습시키는 압축 기법으로, 정확도를 유지하면서 크기를 줄여 온디바이스 실행을 가능하게 합니다.

**지식 증류 (knowledge distillation)**는 더 작은 “학생(student)” 신경망이 더 큰 “교사(teacher)” 신경망의 행동을 모방하도록 학습하는 모델 압축 기법입니다. 학생이 데이터셋의 하드 레이블만으로 학습하는 대신, 교사가 생성하는 부드러운 확률 분포로 학습됩니다 — 이는 교사가 어떻게 일반화하는지에 대한 훨씬 풍부한 정보를 담고 있습니다.

이 기법은 2015년 Hinton, Vinyals, Dean에 의해 대중화되었습니다. 전형적인 절차:

  • 대규모 언어 모델 (LLM) (교사)이 대규모 프롬프트 세트에서 출력 또는 로짓을 생성
  • 더 작은 학생이 자신의 출력과 교사의 출력 사이의 차이를 최소화하도록 학습되며, 더 부드러운 분포를 위해 종종 “temperature softmax”를 사용
  • 선택적으로 실제 레이블에 대한 고전적인 파인튜닝과 결합

증류는 강력한 모델의 실용적인 작은 버전이 오늘날 존재하는 이유입니다 — 예를 들어 DistilBERT(BERT보다 40% 작지만 성능은 97%), Llama 3.2 1B/3B, Gemma 2B, 그리고 GPT-4와 Claude로부터의 수많은 로컬 증류 버전. Apple Intelligence와 모바일 기기의 온디바이스 모델은 거대한 능력을 몇 기가바이트의 RAM에 담기 위해 증류에 크게 의존합니다.

한계는 학생이 엣지 케이스와 복잡한 추론에서 교사를 따라잡는 경우가 드물고, 품질이 전이에 사용된 프롬프트의 다양성에 크게 의존한다는 점입니다.

출처

관련 항목