🟢 🏥 实践应用 发布于: · 2 分钟阅读 ·

CNCF:网易游戏通过Fluid预取层在Kubernetes上实现30秒LLM冷启动

编辑插图:网易游戏通过Fluid预取层在Kubernetes上实现30秒LLM冷启动

CNCF于2026年5月21日发布了网易游戏的案例研究(作者廖海峰和张翔),介绍了如何借助CNCF孵化项目Fluid将70B级LLM模型的加载时间从42分钟(直接访问S3)缩短至30秒以内。关键在于Fluid预取层在团队间共享模型而非多次缓存,以及消除冷启动的预热调度策略。这是在Kubernetes上为大型模型提供无服务器LLM推理的技术案例研究。

🤖

本文由人工智能基于一手来源生成。

CNCF(云原生计算基金会)博客于2026年5月21日发布了来自网易游戏(中国最大的游戏公司之一)的技术案例研究。作者廖海峰和张翔来自网易游戏基础设施团队,详细介绍了如何将大型LLM模型加载到Kubernetes服务栈的时间从灾难性的42分钟缩短至30秒以内。

他们最初要解决什么问题?

网易游戏在几个生产场景中使用70B级LLM模型(Llama 3、Qwen或类似模型) — AI NPC对话、内容审核、自动翻译。这些模型太大,无法在集群中的所有节点上常驻内存 — 需要在每次扩展事件或Pod重启时按需加载。

从S3兼容对象存储直接访问模型需要42分钟才能将70B模型完全加载到GPU内存。这对生产工作负载是不可接受的 — 意味着每次扩展事件会导致新Pod的42分钟中断。

他们经历了哪些优化阶段?

网易游戏分几个阶段进行优化:

第1阶段 — 直接访问S3:42分钟。基准值。

第2阶段 — Fluid分布式缓存:14分钟。通过P2P传输在集群节点间共享模型的CNCF Fluid项目实现。新Pod不再直接从S3拉取,而是可以从已缓存的相邻节点获取模型。

第3阶段 — 带本地SSD缓存的Fluid:3分钟。增加本地SSD缓存层,保存最常用模型的热副本。新的扩展事件发生时,模型已在本地缓存中,消除了网络传输。

第4阶段 — 预热 + 预测性调度:低于30秒。预热策略 — 系统根据历史负载模式预测何时需要新Pod,并在Pod真正需要之前预加载模型。结合预测性调度将新Pod分配到已在内存中拥有模型的节点上。

Fluid作为CNCF项目是什么?

Fluid是CNCF孵化项目,专注于Kubernetes的数据编排。主要应用场景是加速对大型数据集的访问 — 无论是LLM权重、训练数据集还是科学数据。Fluid抽象了底层存储(S3、GCS、HDFS、NFS),提供具有内置缓存、预取和调度集成的统一层。

对于LLM场景,Fluid特别支持:

  • Pod级亲和性 — Kubernetes调度器可以优先将Pod调度到已缓存模型的节点
  • 异步预取 — 在Pod需要之前预加载模型
  • 跨团队共享缓存 — 多个团队可以共享同一模型而无需多次复制

这对生产LLM推理意味着什么?

冷启动延迟是无服务器或自动扩展LLM部署的关键问题。行业标准(OpenAI、Anthropic)在专有栈上实现了亚秒级冷启动,但这是开源社区难以轻易复制的自定义基础设施结果。

网易游戏案例研究提供了一个具体的蓝图,其他公司可以使用开源组件(Kubernetes + Fluid + vLLM)来遵循。70B模型低于30秒的冷启动时间对大多数生产工作负载是可接受的 — 与典型微服务中扩展事件所需时间相当。

对于CNCF来说,这个案例研究是Fluid项目作为生产就绪工具的验证。值得关注其他LLM服务运营商(Replicate、Together AI、Anyscale)是否会采用类似的基于Fluid的方法用于自己的多租户LLM平台。

常见问题

Fluid在CNCF项目中是什么?
Fluid是CNCF孵化的数据密集型工作负载在Kubernetes上的编排项目,专注于通过预取和缓存层加速对大型数据集的访问。
网易游戏将LLM冷启动时间减少了多少?
通过Fluid预取和预热策略,从42分钟(直接访问)经由14分钟和3分钟的中间阶段,最终缩短至30秒以内。
网易游戏使用什么规模的模型?
70B级LLM模型,相当于Llama 3 70B、Qwen 2.5 72B或类似架构。