NetEase GamesはLLMコールドスタート時間をどれだけ短縮したか？

Fluidプリフェッチと事前ウォーミング戦略を通じて、42分（直接アクセス）から14分・3分の中間段階を経て30秒未満まで短縮した。

NetEase Gamesはどのサイズのモデルを使用しているか？

70BクラスのLLMモデルで、Llama 3 70B、Qwen 2.5 72Bまたは類似のアーキテクチャに相当する。

CNCF Fluid：K8s上の70B LLMコールドスタートが30秒未満

Q: FluidはCNCFプロジェクトとして何か？

FluidはKubernetes上のデータ集約型ワークロードのオーケストレーションに特化したCNCFインキュベーションプロジェクトで、プリフェッチとキャッシュレイヤーによって大規模データセットへのアクセスを高速化することに重点を置く。

CNCFは2026年5月21日、NetEase Games（廖海峰・張翔著）のケーススタディを公開した。CNCFインキュベーションプロジェクトFluidを使って70Bクラスのモデル読み込み時間をS3直接アクセスの42分から30秒未満に短縮した方法を詳述している。鍵はFluidプリフェッチレイヤーによるチーム間のモデル共有と、コールドスタートを排除する事前ウォーミングスケジューリングだ。Kubernetes上で大規模モデルのサーバーレスLLM推論を行うエンジニア向けの技術ケーススタディだ。

CNCF（Cloud Native Computing Foundation）ブログは2026年5月21日、中国最大のゲーム会社の一つであるNetEase Gamesの技術ケーススタディを公開した。NetEaseGamesインフラチームの廖海峰と張翔による記事で、大規模LLMモデルをKubernetesサービングスタックに読み込む時間を壊滅的な42分から30秒未満に短縮した方法を詳しく説明している。

最初に解決しようとした問題は何か？

NetEase Gamesはいくつかの本番ユースケース — ゲーム内AIのNPCダイアログ、コンテンツモデレーション、自動翻訳 — に70Bクラス（Llama 3、Qwenなど）のLLMモデルを使用している。モデルはクラスター内のすべてのノードのメモリに常駐させるには大きすぎ、スケーリングイベントやPod再起動のたびにオンデマンドで読み込む必要がある。

S3互換オブジェクトストレージから直接モデルにアクセスすると、70BモデルをGPUメモリに完全にロードするのに42分かかっていた。これは本番ワークロードには受け入れられない — 各スケーリングイベントが新しいPodに42分の停止を引き起こすことを意味する。

どのような最適化フェーズを経たか？

NetEaseは段階的に最適化を実施した。

フェーズ1 — S3直接アクセス：42分。ベースライン。

フェーズ2 — Fluid分散キャッシュ：14分。P2P転送を通じてクラスター内のノード間でモデルを共有するCNCF Fluidプロジェクトの実装。各Podが直接S3からプルする代わりに、新しいPodはすでにキャッシュしている隣接ノードからモデルを取得できる。

フェーズ3 — ローカルSSDキャッシュ付きFluid：3分。最も頻繁に使用されるモデルのウォームコピーを保持するローカルSSDキャッシングレイヤーの追加。新しいスケーリングイベント時にモデルはすでにローカルキャッシュにあり、ネットワーク転送が不要になる。

フェーズ4 — 事前ウォーミング + 予測スケジューリング：30秒未満。事前ウォーミング戦略 — 履歴負荷パターンに基づいて新しいPodがいつ必要になるかを予測し、Podが実際に必要になる前にモデルをプリロードする。モデルがすでにメモリにあるノードに新しいPodをスケジュールする予測スケジューリングと組み合わせる。

FluidはCNCFプロジェクトとして何か？

FluidはKubernetes向けデータオーケストレーションに特化したCNCFインキュベーションプロジェクトだ。主なユースケースは大規模データセット（LLMウェイト、トレーニングデータセット、科学データなど）へのアクセス高速化だ。Fluidは基盤となるストレージ（S3、GCS、HDFS、NFS）を抽象化し、組み込みのキャッシング、プリフェッチ、スケジューリング統合を備えた統一レイヤーを提供する。

LLMユースケースでは特に：

Podレベルのアフィニティ — KubernetesスケジューラーがモデルをすでにキャッシュしているノードへのPodのスケジュールを優先できる
非同期プリフェッチ — Podが必要とする前にモデルをプリロードできる
チーム間のキャッシュ共有 — 複数のチームが複数のコピーなしに同じモデルを共有できる

本番LLM推論にとって何を意味するか？

コールドスタートレイテンシはサーバーレスまたは自動スケーリングLLMデプロイメントの重要な問題だ。業界標準（OpenAI、Anthropic）は独自のスタックでサブ秒のコールドスタート時間を達成しているが、これはオープンソースコミュニティが容易に再現できないカスタムインフラの結果だ。

NetEaseのケーススタディは、他の企業がオープンソースコンポーネント（Kubernetes + Fluid + vLLM）を使って追従できる具体的なブループリントを提供する。70BモデルにおいてSeconds30秒未満のコールドスタートは大多数の本番ワークロードには許容可能で、典型的なマイクロサービスのスケーリングイベントに必要な時間と同程度だ。

CNCFにとって、このケーススタディはFluidプロジェクトの本番対応ツールとしての検証だ。他のLLMサービング事業者（Replicate、Together AI、Anyscale）が自社のマルチテナントLLMプラットフォーム向けに同様のFluidベースのアプローチを採用するかどうか注目だ。

CNCF：NetEase GamesがFluidプリフェッチレイヤーでKubernetes上の30秒LLMコールドスタートを達成

最初に解決しようとした問題は何か？

どのような最適化フェーズを経たか？

FluidはCNCFプロジェクトとして何か？

本番LLM推論にとって何を意味するか？

よくある質問

出典

関連ニュース