🟢 🏥 実践 公開日: · 3 分で読めます ·

CNCF:NetEase GamesがFluidプリフェッチレイヤーでKubernetes上の30秒LLMコールドスタートを達成

編集イラスト:NetEase GamesがFluidプリフェッチレイヤーでKubernetes上の30秒LLMコールドスタートを達成

CNCFは2026年5月21日、NetEase Games(廖海峰・張翔著)のケーススタディを公開した。CNCFインキュベーションプロジェクトFluidを使って70Bクラスのモデル読み込み時間をS3直接アクセスの42分から30秒未満に短縮した方法を詳述している。鍵はFluidプリフェッチレイヤーによるチーム間のモデル共有と、コールドスタートを排除する事前ウォーミングスケジューリングだ。Kubernetes上で大規模モデルのサーバーレスLLM推論を行うエンジニア向けの技術ケーススタディだ。

🤖

この記事はAIにより一次情報源から生成されました。

CNCF(Cloud Native Computing Foundation)ブログは2026年5月21日、中国最大のゲーム会社の一つであるNetEase Gamesの技術ケーススタディを公開した。NetEaseGamesインフラチームの廖海峰と張翔による記事で、大規模LLMモデルをKubernetesサービングスタックに読み込む時間を壊滅的な42分から30秒未満に短縮した方法を詳しく説明している。

最初に解決しようとした問題は何か?

NetEase Gamesはいくつかの本番ユースケース — ゲーム内AIのNPCダイアログ、コンテンツモデレーション、自動翻訳 — に70Bクラス(Llama 3、Qwenなど)のLLMモデルを使用している。モデルはクラスター内のすべてのノードのメモリに常駐させるには大きすぎ、スケーリングイベントやPod再起動のたびにオンデマンドで読み込む必要がある。

S3互換オブジェクトストレージから直接モデルにアクセスすると、70BモデルをGPUメモリに完全にロードするのに42分かかっていた。これは本番ワークロードには受け入れられない — 各スケーリングイベントが新しいPodに42分の停止を引き起こすことを意味する。

どのような最適化フェーズを経たか?

NetEaseは段階的に最適化を実施した。

フェーズ1 — S3直接アクセス:42分。ベースライン。

フェーズ2 — Fluid分散キャッシュ:14分。P2P転送を通じてクラスター内のノード間でモデルを共有するCNCF Fluidプロジェクトの実装。各Podが直接S3からプルする代わりに、新しいPodはすでにキャッシュしている隣接ノードからモデルを取得できる。

フェーズ3 — ローカルSSDキャッシュ付きFluid:3分。最も頻繁に使用されるモデルのウォームコピーを保持するローカルSSDキャッシングレイヤーの追加。新しいスケーリングイベント時にモデルはすでにローカルキャッシュにあり、ネットワーク転送が不要になる。

フェーズ4 — 事前ウォーミング + 予測スケジューリング:30秒未満。事前ウォーミング戦略 — 履歴負荷パターンに基づいて新しいPodがいつ必要になるかを予測し、Podが実際に必要になる前にモデルをプリロードする。モデルがすでにメモリにあるノードに新しいPodをスケジュールする予測スケジューリングと組み合わせる。

FluidはCNCFプロジェクトとして何か?

FluidはKubernetes向けデータオーケストレーションに特化したCNCFインキュベーションプロジェクトだ。主なユースケースは大規模データセット(LLMウェイト、トレーニングデータセット、科学データなど)へのアクセス高速化だ。Fluidは基盤となるストレージ(S3、GCS、HDFS、NFS)を抽象化し、組み込みのキャッシング、プリフェッチ、スケジューリング統合を備えた統一レイヤーを提供する。

LLMユースケースでは特に:

  • Podレベルのアフィニティ — KubernetesスケジューラーがモデルをすでにキャッシュしているノードへのPodのスケジュールを優先できる
  • 非同期プリフェッチ — Podが必要とする前にモデルをプリロードできる
  • チーム間のキャッシュ共有 — 複数のチームが複数のコピーなしに同じモデルを共有できる

本番LLM推論にとって何を意味するか?

コールドスタートレイテンシはサーバーレスまたは自動スケーリングLLMデプロイメントの重要な問題だ。業界標準(OpenAI、Anthropic)は独自のスタックでサブ秒のコールドスタート時間を達成しているが、これはオープンソースコミュニティが容易に再現できないカスタムインフラの結果だ。

NetEaseのケーススタディは、他の企業がオープンソースコンポーネント(Kubernetes + Fluid + vLLM)を使って追従できる具体的なブループリントを提供する。70BモデルにおいてSeconds30秒未満のコールドスタートは大多数の本番ワークロードには許容可能で、典型的なマイクロサービスのスケーリングイベントに必要な時間と同程度だ。

CNCFにとって、このケーススタディはFluidプロジェクトの本番対応ツールとしての検証だ。他のLLMサービング事業者(Replicate、Together AI、Anyscale)が自社のマルチテナントLLMプラットフォーム向けに同様のFluidベースのアプローチを採用するかどうか注目だ。

よくある質問

FluidはCNCFプロジェクトとして何か?
FluidはKubernetes上のデータ集約型ワークロードのオーケストレーションに特化したCNCFインキュベーションプロジェクトで、プリフェッチとキャッシュレイヤーによって大規模データセットへのアクセスを高速化することに重点を置く。
NetEase GamesはLLMコールドスタート時間をどれだけ短縮したか?
Fluidプリフェッチと事前ウォーミング戦略を通じて、42分(直接アクセス)から14分・3分の中間段階を経て30秒未満まで短縮した。
NetEase Gamesはどのサイズのモデルを使用しているか?
70BクラスのLLMモデルで、Llama 3 70B、Qwen 2.5 72Bまたは類似のアーキテクチャに相当する。