기초
스케일링 법칙
모델 규모, 학습 데이터, 연산량과 성능을 잇는 경험적 멱법칙으로, 대형 모델 학습 계획의 토대가 된다.
스케일링 법칙(scaling laws)은 파라미터 수, 학습 데이터 양, 학습에 투입한 연산량이라는 세 가지 양이 커질 때 모델의 손실(loss)이 매끄럽게 감소하는 양상을 나타내는 경험적 멱법칙이다. Kaplan 등(2020)은 대규모 언어 모델의 성능이 여러 자릿수에 걸쳐 예측 가능한 곡선을 따른다는 것을 보였다.
대표적 형태는 L(N, D) = E + A·N^−α + B·D^−β이며, 여기서 N은 파라미터 수, D는 토큰 수를 뜻한다. 이 법칙 덕분에 막대한 연산 예산을 투입하기 전에, 더 작고 저렴한 실험으로 대형 모델의 품질을 추정할 수 있다.
Hoffmann 등(2022, “Chinchilla”)은 이 규칙을 수정했다. 고정된 예산에서는 파라미터와 데이터를 같은 비율로 키워야 하는데, 이전 모델들이 학습 부족 상태였기 때문이다. 스케일링 법칙은 오늘날 파운데이션 모델 설계의 근거이며, 2025-2026년 논의는 프런티어 모델과 추론 시점 연산 확장(test-time compute)으로 옮겨가고 있다.