vLLM: AutoRound 양자화가 vLLM-Omni에 도입, 더 작은 멀티모달 모델로
vLLM은 Intel의 AutoRound 양자화를 vLLM-Omni에 통합해 멀티모달 및 디퓨전 모델의 W4A16 압축을 가능하게 했다. 그 결과 체크포인트가 최대 62% 작아지며, 품질 저하는 미미하고 Intel XPU와 NVIDIA 그래픽 카드에서 생성 속도가 빨라진다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
가장 널리 쓰이는 오픈소스 대규모 언어 모델 서빙 엔진 중 하나인 vLLM 프로젝트가 Intel의 AutoRound 양자화를 자사 멀티모달 분기인 vLLM-Omni에 통합한다고 발표했다. 목표는 대형 멀티모달 및 디퓨전 모델을, 눈에 띄는 품질 손실 없이 단일 그래픽 카드에 들어갈 만큼 충분히 작게 만드는 것이다.
AutoRound는 무엇을 가져오는가?
AutoRound는 사후 학습 양자화(post-training quantization), 즉 이미 학습된 모델을 더 낮은 비트 정밀도로 압축하는 방법이다. 구체적으로 가중치를 4비트로, 활성화를 16비트로 유지하는 W4A16 모드를 가능하게 한다. AutoRound는 이때 텐서마다 학습하는 세 가지 파라미터를 통해 반올림과 값 클리핑을 동시에 최적화하여 양자화 오차를 통제한다.
모델은 실제로 얼마나 작아지는가?
가장 인상적인 예는 Qwen3-Omni-30B-A3B 모델로, 체크포인트가 66GB에서 25GB로 줄어드는데 이는 약 62% 감소에 해당한다. 수치보다 더 중요한 실질적 결과는, 최소 하드웨어 요건이 그래픽 카드 4장에서 단 1장으로 떨어진다는 점이다. 이로써 멀티모달 모델이 더 소박한 장비를 가진 사용자에게도 접근 가능해진다.
품질은 떨어지는가, 그리고 얼마나 빨라지는가?
품질 저하는 놀라울 만큼 작게 유지되었다. 텍스트에서 이미지를 생성할 때 약 1.3% 정도의 편차만 기록되었고, OmniBench 벤치마크에서 W4A16 버전은 BF16 기준보다 오히려 미세하게 더 나았다. 속도 면에서는 CFG Parallel 병렬화가 순차적 BF16 기준 대비 가이드 생성을 1.55~1.67배 빠르게 한다. 지원 대상은 Intel XPU(B60)와 NVIDIA 그래픽 카드를 포함한다.
자주 묻는 질문
- W4A16 양자화란 무엇을 의미하나요?
- 모델의 가중치는 4비트로 저장되고 활성화는 16비트로 유지됩니다. 이로써 계산 시 정밀도를 유지하면서 모델 크기를 대폭 줄입니다.
- 모델 크기는 얼마나 줄어드나요?
- Qwen3-Omni-30B-A3B의 경우 체크포인트가 66GB에서 25GB로 줄어드는데, 이는 대형 Omni 모델에서 최대 62% 더 적은 공간입니다.