양자화

양자화(quantization)는 모델의 가중치와 활성값의 수치 정밀도를 낮추는 모델 압축 기법이다. 예를 들어 숫자를 16비트나 32비트 부동소수점(FP16, FP32) 대신 8비트나 4비트 정수(INT8, INT4)로 저장한다.

실제로는 스케일링 계수를 사용해 각 숫자를 넓은 연속 범위에서 더 작은 이산 값 집합으로 매핑한다. 이로써 모델 크기를 2~4배 줄이고 메모리 사용량을 낮추며 추론 속도를 높인다. 정수 연산이 부동소수점 연산보다 전력과 대역폭을 훨씬 적게 쓰기 때문이다. 주요 방식은 두 가지로, 이미 학습된 모델에 적용하는 학습 후 양자화(PTQ)와 학습 중에 정밀도 손실을 모사해 더 높은 정확도를 얻는 양자화 인식 학습(QAT)이 있다.

2025~2026년에 걸쳐 양자화는 평범한 하드웨어에서 대형 모델을 구동하는 핵심이다. GGUF(llama.cpp) 같은 형식과 GPTQ, AWQ 같은 기법 덕분에 수백억 개의 파라미터를 가진 모델이 단일 소비자용 GPU나 로컬 AI 가속기에 들어갈 수 있어, 오픈 웨이트 모델에 대한 접근이 대중화되고 있다.

출처

관련 항목