vLLM TurboQuant：FP8がKV-cache量子化で最良

Red Hat AIチームはTurboQuantによる攻撃的なKV-cache量子化（3〜4ビット）とFP8標準を体系的に比較しました。結果はFP8がスループットと精度を維持する一方、3bit-nc変種がAIME25などの高難易度推論ベンチマークで約20ポイントの精度低下を示すことを明らかにしています。

Red Hat AIチームのエンジニアEldar Kurtić、Michael Goin、Alexandre Marquesは2026年5月11日、vLLM推論エンジンにおけるTurboQuant KV-cache量子化手法の初の包括的評価を発表しました。この研究は、本番環境に関連するモデルとベンチマークでFP8標準と3〜4ビットの攻撃的変種を比較しています。

TurboQuantとは何か、FP8とどう違うのか？

TurboQuantはKV-cacheのストレージを3〜4ビットに圧縮し、attention計算の実行時にBF16へ逆量子化します。対照的にFP8はストレージと計算の両方を量子化し、パイプライン全体でスループットを維持します。テストされた変種にはk8v4（8ビットキー・4ビット値）、4bit-nc（ノルム補正あり）、そして最も攻撃的な3bit-ncが含まれます。

メモリ容量とスループットの測定結果は？

Llama-3.3-70B、Qwen3-30B、MiniMax-M2.7モデルでの節約量：FP8は2倍の容量、k8v4は2.4倍、4bit-ncは3.4倍。ただしスループットは低下——TurboQuant変種はベースラインの66〜80%の速度を維持し、バッチサイズに応じてレイテンシが10〜68%増加します。FP8は完全なベースラインスループットを維持します。

推論タスクでの精度損失はどの程度か？

AIME25、GPQA:Diamond、MATH500、LiveCodeBench-v6のベンチマークにおいて、最も攻撃的な変種（3bit-nc、k3v4-nc）は約20ポイントの精度損失を示します。より穏やかな4bit-ncはわずか1〜4ポイントの損失です。最大256kトークンの長文コンテキスト評価（openai/mrcr）でも同様のパターンが確認されました。

本番デプロイメントへのRed Hat AIの推奨事項は？

結論は明確です：「FP8はKV-cache量子化の最良のデフォルトであり続ける。」容量を2倍にしながら、スループットや精度の損失はゼロです。より攻撃的なTurboQuant変種は、4bit-ncが最小限の精度コストで3.4倍のメモリ節約を提供するメモリ極限制約シナリオにのみ適しています。

よくある質問

KV-cacheとは何か、なぜ量子化するのか？

KV-cache（キーバリューキャッシュ）は、transformerモデルにおいて前のトークンのattentionレイヤーの中間結果を格納するメモリ構造です。KV-cacheの量子化（FP16/BF16から8ビット以下への精度低減）はVRAM消費を大幅に削減し、より長いコンテキストウィンドウを可能にしますが、生成品質に影響を与える可能性があります。

FP8がより攻撃的なTurboQuant変種を上回る理由は？

FP8はストレージと計算の両方を量子化しますが、TurboQuant変種はストレージのみを圧縮し、attention計算のためにBF16へ逆量子化します。逆量子化のコストはバッチサイズに比例して増大し、10〜68%の速度低下を引き起こし、攻撃的な3ビット変種は数学的推論に必要な精度を失います。

精度損失があってもなお4bit-ncが有用な場面は？

4bit-ncはベンチマークでわずか1〜4ポイントの損失で3.4倍のメモリ節約を実現します。これはメモリが極度に制約された場面——例えばFP8が収まらない小型GPU上で256kトークンの超長コンテキストを提供する場合——で許容可能なトレードオフです。

vLLM: TurboQuant研究でFP8がKV-cacheで依然優位——3bit-ncは精度が約20ポイント低下

TurboQuantとは何か、FP8とどう違うのか？

メモリ容量とスループットの測定結果は？

推論タスクでの精度損失はどの程度か？

本番デプロイメントへのRed Hat AIの推奨事項は？

よくある質問

出典

関連ニュース