CNCF Fluid：K8s上70B LLM冷启动低于30秒

CNCF于2026年5月21日发布了网易游戏的案例研究（作者廖海峰和张翔），介绍了如何借助CNCF孵化项目Fluid将70B级LLM模型的加载时间从42分钟（直接访问S3）缩短至30秒以内。关键在于Fluid预取层在团队间共享模型而非多次缓存，以及消除冷启动的预热调度策略。这是在Kubernetes上为大型模型提供无服务器LLM推理的技术案例研究。

CNCF（云原生计算基金会）博客于2026年5月21日发布了来自网易游戏（中国最大的游戏公司之一）的技术案例研究。作者廖海峰和张翔来自网易游戏基础设施团队，详细介绍了如何将大型LLM模型加载到Kubernetes服务栈的时间从灾难性的42分钟缩短至30秒以内。

他们最初要解决什么问题？

网易游戏在几个生产场景中使用70B级LLM模型（Llama 3、Qwen或类似模型） — AI NPC对话、内容审核、自动翻译。这些模型太大，无法在集群中的所有节点上常驻内存 — 需要在每次扩展事件或Pod重启时按需加载。

从S3兼容对象存储直接访问模型需要42分钟才能将70B模型完全加载到GPU内存。这对生产工作负载是不可接受的 — 意味着每次扩展事件会导致新Pod的42分钟中断。

他们经历了哪些优化阶段？

网易游戏分几个阶段进行优化：

第1阶段 — 直接访问S3：42分钟。基准值。

第2阶段 — Fluid分布式缓存：14分钟。通过P2P传输在集群节点间共享模型的CNCF Fluid项目实现。新Pod不再直接从S3拉取，而是可以从已缓存的相邻节点获取模型。

第3阶段 — 带本地SSD缓存的Fluid：3分钟。增加本地SSD缓存层，保存最常用模型的热副本。新的扩展事件发生时，模型已在本地缓存中，消除了网络传输。

第4阶段 — 预热 + 预测性调度：低于30秒。预热策略 — 系统根据历史负载模式预测何时需要新Pod，并在Pod真正需要之前预加载模型。结合预测性调度将新Pod分配到已在内存中拥有模型的节点上。

Fluid作为CNCF项目是什么？

Fluid是CNCF孵化项目，专注于Kubernetes的数据编排。主要应用场景是加速对大型数据集的访问 — 无论是LLM权重、训练数据集还是科学数据。Fluid抽象了底层存储（S3、GCS、HDFS、NFS），提供具有内置缓存、预取和调度集成的统一层。

对于LLM场景，Fluid特别支持：

Pod级亲和性 — Kubernetes调度器可以优先将Pod调度到已缓存模型的节点
异步预取 — 在Pod需要之前预加载模型
跨团队共享缓存 — 多个团队可以共享同一模型而无需多次复制

这对生产LLM推理意味着什么？

冷启动延迟是无服务器或自动扩展LLM部署的关键问题。行业标准（OpenAI、Anthropic）在专有栈上实现了亚秒级冷启动，但这是开源社区难以轻易复制的自定义基础设施结果。

网易游戏案例研究提供了一个具体的蓝图，其他公司可以使用开源组件（Kubernetes + Fluid + vLLM）来遵循。70B模型低于30秒的冷启动时间对大多数生产工作负载是可接受的 — 与典型微服务中扩展事件所需时间相当。

对于CNCF来说，这个案例研究是Fluid项目作为生产就绪工具的验证。值得关注其他LLM服务运营商（Replicate、Together AI、Anyscale）是否会采用类似的基于Fluid的方法用于自己的多租户LLM平台。

常见问题

Fluid在CNCF项目中是什么？

Fluid是CNCF孵化的数据密集型工作负载在Kubernetes上的编排项目，专注于通过预取和缓存层加速对大型数据集的访问。

网易游戏将LLM冷启动时间减少了多少？

通过Fluid预取和预热策略，从42分钟（直接访问）经由14分钟和3分钟的中间阶段，最终缩短至30秒以内。

网易游戏使用什么规模的模型？

70B级LLM模型，相当于Llama 3 70B、Qwen 2.5 72B或类似架构。

CNCF：网易游戏通过Fluid预取层在Kubernetes上实现30秒LLM冷启动

他们最初要解决什么问题？

他们经历了哪些优化阶段？

Fluid作为CNCF项目是什么？

这对生产LLM推理意味着什么？

常见问题

来源

相关新闻