🟡 🤖 모델 게시일: · 2 분 읽기 ·

PyTorch/SGLang: GB300에서 DeepSeek-V4 Pro — 동일한 인터랙티브성으로 5배 높은 처리량

에디토리얼 일러스트레이션: NVIDIA Blackwell GPU 카드가 있는 서버 랙과 5배 처리량 증가를 보여주는 그래프

PyTorch 팀과 SGLang은 2026년 4월부터 6월까지 NVIDIA GB300 아키텍처에서 DeepSeek-V4 Pro 모델의 서빙 처리량을 GPU당 약 2,200에서 11,200 토큰/초로 증가시켰습니다. 최종 사용자의 인터랙티브성 손실 없이 5배 향상입니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

서빙 최적화, 새로운 모델 아님

PyTorch 팀은 SGLang 프레임워크 개발 팀과 협력해 NVIDIA GB300 아키텍처(Blackwell Ultra)에서 DeepSeek-V4 Pro 모델 서빙 최적화에 대한 자세한 보고서를 발표했습니다. 이것은 추론 인프라 카테고리의 엔지니어링 성과입니다. DeepSeek-V4 Pro는 동일한 모델이지만, 서빙 방식이 근본적으로 개선되었습니다.

SGLang(Structured Generation Language)은 요청 스케줄링, KV 캐시 관리, 커널 실행을 처리하는 대형 언어 모델의 고성능 서빙을 위한 오픈 프레임워크입니다.

초당 2,200에서 11,200 토큰으로

2026년 4월(0일차, 이른바 『day-0』)에 시스템은 사용자당 초당 50 토큰의 인터랙티비티 수준에서 GPU당 약 2,200 토큰/초를 달성하고 있었습니다. 2026년 6월까지 일련의 개선을 통해 동일한 지표가 GPU당 약 11,200 토큰/초에 도달했습니다. 인터랙티비티 표준 변경 없이 5배 처리량 증가입니다.

집계된 Blackwell Ultra 구성에서는 최고값 6배 이상을 기록하며 2.85~2.91배 증가가 관찰되었습니다.

핵심 기술 혁신

결과는 여러 고급 커널과 알고리즘 개선의 조합으로 달성되었습니다.

  • MHP 융합(MHC fusion) — 여러 연산을 단일 GPU 명령으로 결합해 메모리 접근 지연 감소
  • KV Compression V2 — 더 공격적인 키-값 캐시 압축으로 GPU 메모리 대역폭 압박 감소
  • W4A4 MegaMoE — GB300에서 FP4 정밀도로 DeepSeek-V4 Pro의 혼합 전문가(MoE) 아키텍처를 위한 4비트 가중치 및 활성화 양자화

MTP 버그픽스, 투기적 디코딩 효율 두 배로

Multi-Token Prediction(MTP)(모델이 여러 토큰을 병렬로 미리 제안하고 최종 출력과 일치하는 것을 수용하는 투기적 디코딩 기술)은 『투기적 수용률』이라는 핵심 지표를 갖습니다. 수용률이 높을수록 거부된 추측이 적고 실제 생성 속도가 빨라집니다.

NaN 값을 일으키는 버그를 수정한 후 수용률이 0.57에서 0.70으로 개선되었으며, 이것만으로도 전체 5배 개선에 상당히 기여했습니다. 비교하자면 MTP 최적화 없이는 동일한 커널로도 시스템이 6월 값에 훨씬 못 미쳤을 것입니다.

실질적 의의

클라우드 AI 서비스 제공업체에게 동일한 하드웨어에서 5배 처리량 증가는 생성된 토큰당 비용을 직접 절감하거나 추가 GPU 인프라 투자 없이 5배 더 많은 동시 사용자를 허용합니다.

자주 묻는 질문

처리량이란 무엇이며 AI 서빙에 왜 중요합니까?
처리량(throughput)은 모델이 GPU당 초당 생성할 수 있는 토큰 수를 측정합니다. 높은 처리량은 동일한 하드웨어로 더 많은 동시 사용자를 더 낮은 비용으로 서비스할 수 있음을 의미합니다.
Multi-Token Prediction이란 무엇이며 어떻게 도움이 됩니까?
MTP(Multi-Token Prediction)는 모델이 한 단계에서 여러 토큰을 미리 예측하는 투기적 디코딩 기술입니다. NaN 버그픽스 후 수용률이 0.57에서 0.70으로 향상되어 생성 속도가 추가로 가속됩니다.