NVIDIA가 DeepSeek V4의 토큰 비용을 얼마나 줄였습니까?

NVIDIA는 Blackwell 하드웨어에서 계층화된 소프트웨어 최적화를 통해 모델 자체를 변경하지 않고 한 달 내에 DeepSeek V4의 토큰 비용을 최대 5배 절감했습니다.

20배 더 높은 처리량을 가능하게 하는 핵심 기법은 무엇입니까?

분리된 서빙(disaggregated serving), NVLink를 통한 대규모 전문가 병렬화, NVFP4 정밀도, 다중 토큰 예측, 투기적 디코딩 및 컴퓨팅과 통신 오버랩의 조합으로 Blackwell에서 GPU당 최대 20배 더 높은 처리량을 달성합니다.

파트너의 프로덕션 시스템에서 실제 결과는 어떻습니까?

Baseten은 TensorRT-LLM으로 초당 최대 50% 더 많은 토큰을 달성하고, Hippocratic AI는 DigitalOcean에서 0.5초 미만의 레이턴시로 30% 더 높은 처리량을 기록하며, DFlash 투기적 디코딩은 최대 15배 더 높은 처리량을 제공합니다.

NVIDIA Blackwell: DeepSeek V4 토큰 비용 5배 절감

NVIDIA가 Blackwell 아키텍처에서 계층화된 소프트웨어 최적화 — NVFP4 정밀도부터 투기적 디코딩까지 — 가 DeepSeek V4 모델의 처리량을 최대 20배 높이고 토큰 비용을 5배 낮추는 방법을 설명합니다.

NVIDIA가 Blackwell 아키텍처 — 구체적으로 GB300 NVL72 및 GB200 NVL72 시스템 — 에서 극적으로 낮은 추론 비용을 달성하는 소프트웨어 최적화에 대한 상세한 개요를 발표했습니다. 핵심 데이터: DeepSeek V4의 토큰 비용이 모델 자체를 변경하지 않고 소프트웨어 개선만으로 한 달 내에 5배 절감되었습니다.

왜 하드웨어만이 아니라 소프트웨어입니까?

Blackwell은 Hopper에 비해 훨씬 더 많은 원시 컴퓨팅 파워를 제공했지만, 하드웨어 자체는 자동으로 최적화되지 않습니다. 핵심은 추론 스택이 계산 정밀도와 네트워크 토폴로지에서 서빙 및 토큰 생성 방식까지 시스템의 모든 레벨을 동시에 활용해야 한다는 것입니다. NVIDIA는 최적화 계층화(stacking) 접근 방식을 설명합니다: 각 기법은 자체적으로 개선을 제공하지만 진정한 효과는 결합에서 나타납니다.

20배 처리량으로 이어지는 네 가지 기법

네 가지 기법이 함께 GPU당 최대 20배 더 높은 처리량을 달성합니다:

**분리된 서빙(Disaggregated serving)**은 추론의 프리필과 디코드 단계를 별도의 하드웨어 리소스로 분리합니다. 입력 프롬프트를 처리하는 프리필 단계와 토큰을 생성하는 디코드 단계는 서로 다른 하드웨어 활용도 특성을 가집니다 — 이를 분리함으로써 각 리소스가 최적 모드로 작동합니다.

NVLink를 통한 대규모 전문가 병렬화를 통해 DeepSeek V4와 같은 MoE 모델이 통신 오버헤드를 최소화하는 NVLink 대역폭으로 여러 GPU에 전문가를 배포할 수 있습니다. GB300 NVL72 및 GB200 NVL72 시스템은 정확히 이러한 배포를 위해 설계된 특히 높은 NVLink 대역폭을 가지고 있습니다.

NVFP4 정밀도는 메모리 풋프린트를 줄이고 산술 집약도를 높입니다. Blackwell 세대는 FP4에 대한 하드웨어 지원을 도입하므로 낮은 정밀도가 에뮬레이션 없이 달성됩니다 — 직접적인 하드웨어 처리량으로.

다중 토큰 예측 및 투기적 디코딩은 모델을 통한 각 패스마다 더 많은 토큰을 생성하여 각 디코딩 단계의 고정 오버헤드를 상각합니다. DFlash 투기적 디코딩 구현은 기존 디코딩에 비해 최대 15배 더 높은 처리량을 달성합니다.

또한 NVIDIA는 컴퓨팅과 통신의 오버랩 및 커널 퓨전 기법을 전체 스택에 걸쳐 적용되는 수평적 최적화로 강조합니다.

프로덕션의 실제 결과

이것이 프로덕션에서 확인됩니까?

예 — NVIDIA는 이러한 최적화를 프로덕션에서 사용하는 파트너의 구체적인 결과를 제시합니다:

Baseten은 Blackwell에서 DeepSeek V4 Pro를 서빙하며 이전 세대 스택에 비해 TensorRT-LLM 최적화로 초당 최대 50% 더 많은 토큰을 기록합니다.

Hippocratic AI는 1,000만 건의 환자 통화를 처리하며 DigitalOcean 인프라에서 최적화를 구현하여 0.5초 미만의 레이턴시로 30% 더 높은 처리량을 달성했습니다 — 이는 실시간 음성 애플리케이션에 중요합니다.

DFlash 투기적 디코딩은 출력 토큰 분포를 예측할 수 있는 시나리오에서 최대 15배 처리량 개선을 제공합니다.

Cognition은 레이턴시가 학습 루프에 중요한 강화학습 워크로드에 NVIDIA Dynamo 추론 프레임워크를 사용합니다.

이 스택을 구성하는 도구

NVIDIA는 추론 스택을 구성하는 도구 생태계를 설명합니다: 서빙을 위한 최적화 컴파일러로서의 TensorRT-LLM, 복잡한 다중 시스템 배포를 위한 추론 프레임워크로서의 NVIDIA Dynamo, 그리고 네이티브 CUDA 지원으로 vLLM, SGLang 및 PyTorch와 같은 인기 있는 오픈소스 솔루션과의 통합.

언급된 모든 파트너가 독립적으로 최적화를 구현했다는 점은 방법론이 한 사용자에 특정되지 않고 의료에서 소프트웨어 개발까지 다양한 사용 사례에서 재현 가능함을 시사합니다.

맥락: 5배 비용 절감의 중요성

토큰 비용은 LLM 애플리케이션의 경제성을 직접 결정합니다. 한 달 내에 5배 낮은 비용은 이전에 가까스로 수익성이 있었던 애플리케이션이 명확히 수익성이 있게 되거나, 동일한 예산으로 5배 더 많은 추론에 지출할 수 있음을 의미합니다. 수천억 개의 파라미터를 가진 DeepSeek V4와 같은 프론티어 규모 모델의 경우, 비용 절감의 모든 배수는 전체 운영 비용에 비례하여 더 큰 효과를 가집니다.

NVIDIA: Blackwell의 소프트웨어 스택이 한 달 만에 DeepSeek V4 토큰 비용 5배 절감