UltraQuant: 4비트 KV 캐시로 TTFT 3.47배 단축

UltraQuant는 멀티턴 LLM 에이전트를 위한 KV 캐시를 4비트 정밀도로 압축하는 기술입니다. AMD, UCLA, 퍼듀 대학교가 공동 개발하였으며, 높은 컨텍스트 부하의 후반 라운드에서 FP8 기준선 대비 P50 TTFT를 3.47배 단축하고 출력 처리량을 1.63배 향상시킵니다.

UltraQuant: 에이전트 LLM 워크플로우를 위한 4비트 KV 캐시 압축

AMD, UCLA, 퍼듀 대학교의 Inesh Chakrabarti 연구팀은 UltraQuant를 발표하였습니다. 이 시스템은 멀티턴 LLM 에이전트의 KV 캐시(키-값 캐시)를 FP16/FP8에서 4비트 정밀도(FP4)로 압축하여 메모리 대역폭 부담을 크게 줄입니다.

비대칭 접근 방식: FP8 쿼리, FP4 키와 값

KV 캐시는 컨텍스트 길이에 비례하여 선형으로 증가하기 때문에 긴 에이전트 대화에서 병목이 됩니다. UltraQuant는 비대칭 처리를 도입합니다. 쿼리는 FP8로 유지하고, 키와 값은 Walsh-Hadamard 회전을 통해 FP4로 양자화하여 이상치를 재분배하고 양자화 오차를 줄입니다. 네이티브 scaled-MFMA를 지원하는 AMD GPU는 소프트웨어 에뮬레이션 없이 FP4 행렬 곱셈을 하드웨어 수준에서 실행합니다.

결과: 후반 라운드에서 TTFT 3.47배 단축

scaled-MFMA가 활성화된 AMD 하드웨어에서의 측정 결과:

P50 TTFT(첫 번째 토큰 생성 시간) 높은 컨텍스트 부하의 후반 라운드에서: FP8 기준선 대비 3.47배 단축
전체 라운드 평균 TTFT 향상: 2.3배
출력 처리량: 초당 토큰 수 1.63배 증가

비교하면, 표준 FP8 양자화는 일반적으로 더 높은 메모리 용량을 요구하면서 1.3–1.5배의 TTFT 가속에 그칩니다. UltraQuant는 멀티턴 에이전트에서 특히 효과적이며, 후반 라운드의 KV 캐시가 주요 병목이 되는 상황에서 두드러진 성능을 발휘합니다.

적용 분야: 멀티턴 에이전트 시나리오

이 연구는 대화 횟수에 따라 컨텍스트 길이가 증가하는 챗봇, RAG 파이프라인, 코딩 에이전트 등의 프로덕션 시나리오를 대상으로 합니다. 저자들은 UltraQuant가 GQA(그룹 쿼리 어텐션) 및 PagedAttention과 같은 기법과 상호 보완적이며 함께 사용할 수 있다고 강조합니다.

이 논문은 2026년 6월 18일에 제출되었으며, 6월 19일 arXiv에 공개되었습니다(arXiv:2606.20474).

자주 묻는 질문

KV 캐시란 무엇이며, LLM 에이전트에 왜 중요한가요?

KV(키-값) 캐시는 트랜스포머의 어텐션 연산 중간 결과를 저장하여 새로운 토큰마다 재계산하는 과정을 방지합니다. 긴 컨텍스트를 가진 멀티턴 에이전트 대화에서 특히 중요합니다.

UltraQuant는 어떤 GPU를 지원하며, 특수 하드웨어가 필요한가요?

UltraQuant는 scaled-MFMA 연산(네이티브 FP4)을 기본 지원하는 AMD GPU를 사용하여, 소프트웨어 에뮬레이션 없이 완전한 하드웨어 가속을 실현합니다.

UltraQuant는 키와 값을 어떻게 다르게 처리하나요?

비대칭 접근 방식을 적용합니다. 쿼리는 FP8 정밀도를 유지하고, 키와 값은 Walsh-Hadamard 회전을 통해 FP4로 압축하여 이상치를 재분배하고 양자화 오차를 줄입니다.

arXiv:2606.20474: UltraQuant, 4비트 정밀도로 KV 캐시 지연 시간 3.47배 단축

UltraQuant: 에이전트 LLM 워크플로우를 위한 4비트 KV 캐시 압축

비대칭 접근 방식: FP8 쿼리, FP4 키와 값

결과: 후반 라운드에서 TTFT 3.47배 단축

적용 분야: 멀티턴 에이전트 시나리오

자주 묻는 질문

출처

관련 뉴스