OScaR：INT2 KV 캐시 양자화——3배 빠른 디코딩, 5배 적은 메모리

연구자들이 대형 언어 모델의 KV 캐시 양자화의 근본적인 문제를 해결하는 OScaR을 발표했습니다. 값당 2비트의 INT2 정밀도를 사용하면서도 거의 정확도 손실 없이 3배 빠른 디코딩, 5.3배 적은 메모리, BF16 FlashDecoding-v2 대비 4.1배 높은 처리량을 달성했습니다.

메모리는 현재 프로덕션 환경에서 대형 언어 모델을 실행하는 가장 큰 장벽 중 하나입니다. 모델이 새로운 토큰을 생성할 때마다 전체 대화 컨텍스트에 접근해야 합니다——KV 캐시(키-값 캐시)로 알려진 이 임시 메모리는 컨텍스트 길이에 비례하여 증가하며 GPU에서 수십 기가바이트의 RAM을 차지할 수 있습니다.

왜 극단적인 KV 캐시 압축은 지금까지 미해결 문제였나요?

표준 접근법은 양자화——16비트 부동 소수점 대신 더 작은 형식으로 값을 저장하는 것입니다. INT4(4비트)는 허용 가능한 정확도 손실을 가져오지만, INT2(2비트)는 지금까지 극적인 정확도 하락을 초래했습니다. 연구자들은 원인을 파악하고 있었습니다. 토큰 노름 불균형——특정 차원들이 이상값을 가지고 있어 2비트 표현으로는 이를 정확하게 저장할 수 없는 것입니다.

OScaR(오컴의 면도날)은 우아한 2단계 접근 방식으로 이를 해결합니다. 채널화 회전이 값 분포를 정규화하고, 이어서 옴니 토큰 스케일링이 토큰별로 남은 변동을 스케일링합니다. 결과는 저자들에 따르면 벤치마크에서 「거의 손실 없는」 정확도를 달성하는 INT2 양자화입니다.

구체적인 수치는 무엇을 말해주나요?

BF16 FlashDecoding-v2(효율적인 추론의 사실상 표준)와 비교:

3.0배 빠른 디코딩 — 모델 응답 속도가 3배 향상
5.3배 적은 메모리 — 동일한 GPU로 훨씬 긴 컨텍스트 또는 더 많은 병렬 요청 처리 가능
4.1배 높은 처리량 — 동일한 하드웨어에서 더 많은 사용자 서비스 가능

이 방법은 텍스트·멀티모달·옴니모달 모델에서 작동하며, 코드는 GitHub에 공개되어 있고, 논문은 2026년 5월 19일에 동료 심사에 제출되었습니다.

AI 인프라에 대한 실질적 의미

클라우드에서 LLM 추론을 실행하는 기업에게 이 수치는 비용으로 직접 환산됩니다. 동일한 GPU가 동일한 지연 시간으로 4배 더 많은 요청을 처리할 수 있다면, 쿼리당 비용은 약 75% 감소합니다. OScaR이 동료 심사를 통과하고 더 광범위한 모델에서 동일한 결과를 보인다면, FlashAttention 및 speculative decoding과 함께 추론 스택의 표준 구성 요소가 될 수 있습니다.

자주 묻는 질문

KV 캐시란 무엇이며, 왜 압축이 어려운가요?

KV 캐시(키-값 캐시)는 언어 모델이 이미 처리된 토큰의 어텐션 중간 결과를 저장하는 임시 메모리입니다. 이것 없이는 새로운 토큰마다 전체 컨텍스트를 다시 계산해야 합니다. 압축이 어려운 이유는 「토큰 노름 불균형」입니다——일부 차원은 극도로 높은 값을 가지고 있어 표준 양자화 알고리즘으로는 적은 비트 수로 정확하게 포착할 수 없습니다.

INT2 양자화는 구체적으로 무엇을 의미하나요?

INT2 양자화는 KV 캐시의 각 값을 표준 16비트나 32비트가 아닌 단 2비트로 저장하는 것을 의미합니다. 이는 「극단적인」 압축으로, 일반적인 BF16 형식보다 8배에서 16배 작은 표현입니다. OScaR은 회전과 토큰 스케일링을 통해 이 압축이 모델 정확도에 거의 영향을 미치지 않도록 합니다.

OScaR은 텍스트 모델에만 적용되나요?

아닙니다——OScaR은 텍스트·멀티모달·옴니모달 언어 모델에 적용되도록 설계되어, 텍스트·이미지·오디오를 결합한 현대 AI 시스템의 더 넓은 에코시스템에 활용할 수 있습니다.

arXiv:2605.19660：OScaR — INT2 KV 캐시 양자화로 3배 빠른 디코딩 실현

왜 극단적인 KV 캐시 압축은 지금까지 미해결 문제였나요?

구체적인 수치는 무엇을 말해주나요?

AI 인프라에 대한 실질적 의미

자주 묻는 질문

출처

관련 뉴스