vLLM Mooncake：エージェントのスループット3.8倍

vLLMがMooncake分散KVキャッシュストアを統合し、エージェントターン間のプレフィックス再計算を排除します。12台のGB200 GPUを使用した現実的なCodexトレースで、スループット3.8倍、P50 TTFT（最初のトークンまでの時間）46倍低下、エンドツーエンドレイテンシ8.6倍低下、キャッシュヒット率が1.7%から92.2%に向上しました。

vLLMチームは、分散KVキャッシュストレージのオープンソースライブラリMooncakeの統合を発表しました。これはエージェントワークロードの特定の問題に対応するためのものです。長いマルチターンのやり取りでは、各ターンが数千の新しいトークンを追加するだけですが、80K以上のキャッシュされたプレフィックストークンを再利用します。分散キャッシュなしでは、ビジーなインスタンスはすぐにローカルメモリを使い果たし、ロードバランサーが次のターンを別のマシンにルーティングすると完全な再計算が強制されます。

Codexトレースでの具体的な改善はどれほどか？

SWE-bench Proベンチマークの現実的なCodex/GPT-5.4トレースを使用し、12台のGB200 GPUでテストした結果、統合によりスループット3.8倍、P50 TTFT（最初のトークンまでの時間）46倍低下、エンドツーエンドレイテンシ8.6倍低下を達成しました。キャッシュヒット率が1.7%から92.2%に跳ね上がったことで、主なボトルネックが同一プレフィックスの再計算であったことが確認されました。

60台のGPUへのスケールアップでもキャッシュヒット率は95%以上を維持し、ラウンドロビンルーティングでスループットはほぼ線形にスケールします。KVキャッシュ（Key-Valueキャッシュ）は前のトークンの注意ベクトルを保存するデータ構造で再計算を不要にし、プレフィックス共有とは会話の共通の開始部分のキャッシュをインスタンス間で共有することです。

Mooncakeはアーキテクチャとしてどう統合されているか？

システムはマスター・ワーカー設計を採用しています。マスターサーバーがメタデータとヘルスモニタリングを管理し、GPUノード上のクライアントがGPUDirect RDMAを通じて分散プールを形成し、vLLMはプリフィルとデコードの分離に使用している既存のKVConnectorインターフェースを通じて接続します。MultiConnectorチェーンにより、リクエストはプリフィルインスタンスまたは共有プールのどちらからでもプレフィックスを回収できます。

GPUDirect RDMAは、GPU SM（ストリーミングマルチプロセッサ）やCPUのステージングバッファを介さずに、GPU HBMとCPUメモリの間で直接データを転送します。非同期バックグラウンドスレッドがクリティカルパスの外でRDMAディスクリプタを準備します。

本番エージェントシステムにとって何を意味するか？

Codex/GPT-5.4 SWE-bench Proの610トレースの分析で、潜在的なキャッシュヒット率94.2%、入出力比131:1、トレースあたりの中央値33ターン、P99ターン間遅延5.2〜81.4秒が示されました。これはエージェントワークロードが再利用に極端に傾いており、キャッシュ共有を知らないシステムが実際の本番環境でそのコストを払っていることを意味します。

実装はGitHub PR #40900として提供されています。計画中の機能にはNVMe SSDオフローディング、ハイブリッドアーキテクチャのサポート、キャッシュを考慮したルーティングが含まれます。Inferact、アントグループ、Approaching.AI、Huawei、Alibaba Cloudのチームが貢献しています。

よくある質問

KVキャッシュとは何で、なぜエージェントにとって重要ですか？

KVキャッシュ（Key-Valueキャッシュ）は、新しいトークンを生成するたびに再計算しなくて済むよう、前のトークンの注意ベクトルを保存します。長いマルチターン履歴を持つエージェントにとって不可欠——キャッシュなしでは各ターンでコンテキスト全体を再処理する必要があります。

分散環境でのプレフィックス共有とはどういう意味ですか？

プレフィックス共有とは、会話の共通の開始部分のKVキャッシュを複数のvLLMインスタンス間で共有することです。なければ、ロードバランサーが次のターンを別のマシンに送ると再計算が必要になります。Mooncakeはクラスター全体のvLLMがRDMA経由でキャッシュプールを共有できるようにします。

Mooncakeはなぜこれほど大きな改善を達成できるのですか？

GPUDirect RDMAがGPU HBMとCPUメモリ間でカーネル介入なしにデータを転送し、非同期バックグラウンドスレッドがRDMAディスクリプタを準備し、MultiConnectorチェーンがプリフィルインスタンスまたは共有プールからプレフィックスを回収できます。

vLLM：Mooncake分散KVキャッシュストアの統合でマルチターンエージェントのスループット3.8倍、P50 TTFT 46倍改善

Codexトレースでの具体的な改善はどれほどか？

Mooncakeはアーキテクチャとしてどう統合されているか？

本番エージェントシステムにとって何を意味するか？

よくある質問

出典

関連ニュース