인프라

양자화

모델 가중치의 수치 정밀도를 낮춰(예: FP16에서 INT8 또는 INT4로) 정확도 손실을 최소화하면서 크기를 줄이고 추론 속도를 높이는 기법.

양자화(quantization)는 모델의 가중치와 활성값의 수치 정밀도를 낮추는 모델 압축 기법이다. 예를 들어 숫자를 16비트나 32비트 부동소수점(FP16, FP32) 대신 8비트나 4비트 정수(INT8, INT4)로 저장한다.

실제로는 스케일링 계수를 사용해 각 숫자를 넓은 연속 범위에서 더 작은 이산 값 집합으로 매핑한다. 이로써 모델 크기를 2~4배 줄이고 메모리 사용량을 낮추며 추론 속도를 높인다. 정수 연산이 부동소수점 연산보다 전력과 대역폭을 훨씬 적게 쓰기 때문이다. 주요 방식은 두 가지로, 이미 학습된 모델에 적용하는 학습 후 양자화(PTQ)와 학습 중에 정밀도 손실을 모사해 더 높은 정확도를 얻는 양자화 인식 학습(QAT)이 있다.

2025~2026년에 걸쳐 양자화는 평범한 하드웨어에서 대형 모델을 구동하는 핵심이다. GGUF(llama.cpp) 같은 형식과 GPTQ, AWQ 같은 기법 덕분에 수백억 개의 파라미터를 가진 모델이 단일 소비자용 GPU나 로컬 AI 가속기에 들어갈 수 있어, 오픈 웨이트 모델에 대한 접근이 대중화되고 있다.

출처

관련 항목