🟢 🏥 U praksi Objavljeno: · 3 min čitanja ·

CNCF: NetEase Games postigao 30-sekundni LLM cold start na Kubernetesu preko Fluid prefetching slojeva

Editorial illustration: NetEase Games postigao 30-sekundni LLM cold start na Kubernetesu preko Fluid prefetching slojeva

CNCF je 21. svibnja 2026. objavio case study iz NetEase Games (autori Haifeng Liao i Xiang Zhang) koji opisuje kako su uz CNCF-inkubirani Fluid projekt smanjili vrijeme učitavanja 70B-klasnih LLM modela s 42 minute (direktan pristup S3) na ispod 30 sekundi. Ključ je Fluid prefetching sloj koji dijeli modele između timova umjesto višestrukog cachiranja, uz pre-warming raspoređivanje koje eliminira cold startove. Tehnički case study za sve koji rade serverless LLM inference na Kubernetes-u s velikim modelima.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

CNCF (Cloud Native Computing Foundation) blog objavio je 21. svibnja 2026. tehnički case study iz NetEase Games — jednog od najvećih kineskih gaming kompanija — koji detaljno opisuje kako su smanjili vrijeme učitavanja velikih LLM modela u njihov Kubernetes serving stack s katastrofalnih 42 minute na ispod 30 sekundi. Autori su Haifeng Liao i Xiang Zhang iz NetEase Games infrastruktur tima.

Što je inicijalni problem koji su rješavali?

NetEase Games koristi LLM modele klase 70B (Llama 3, Qwen ili slično) za nekoliko produkcijskih use case-ova — AI NPC dijaloge u igrama, content moderation, automatske prijevode. Modeli su preveliki da bi se držali u memoriji svih nodes-a u clusteru — moraju se učitavati on-demand pri svakom scaling event-u ili pri restart-u pod-a.

Direktan pristup modelu iz S3-kompatibilnog object storage davao je 42 minute za potpuno učitavanje 70B modela u GPU memoriju. To je neprihvatljivo za production workload — znači da svaki scaling event uzrokuje 42-minutni outage za novi pod.

Koje su faze optimizacije prošli?

NetEase je optimizaciju radio u nekoliko faza:

Faza 1 — direktan S3 pristup: 42 minute. Baseline.

Faza 2 — Fluid distributed cache: 14 minute. Implementacija CNCF Fluid projekta koji dijeli modele između nodes-a u clusteru kroz P2P transferi. Umjesto da svaki pod pulld direktno s S3, novi pod-ovi mogu dohvaćati model od susjednih nodes-a koji ga već imaju cached.

Faza 3 — Fluid s lokalnim SSD cache: 3 minute. Dodatak local SSD caching sloja koji drži warm kopije najčešće korištenih modela. Pri novom scaling event-u, model je već u local cache-u, što eliminira network transfer.

Faza 4 — Pre-warming + predictive scheduling: ispod 30 sekundi. Pre-warming strategija — sustav predviđa kad će biti potreban novi pod (na temelju historical load patterns) i pre-load-uje model prije nego što je pod stvarno potreban. Kombinirano s predictive scheduling koji raspoređuje nove pod-ove na nodes-e koji već imaju model u memoriji.

Što je Fluid kao CNCF projekt?

Fluid je CNCF-inkubirani projekt fokusiran na data orchestration za Kubernetes. Glavni use case je ubrzanje pristupa velikim datasetima — bilo da su to LLM weights, training datasets, ili scientific data. Fluid abstrahira underlying storage (S3, GCS, HDFS, NFS) i daje uniform layer s built-in caching, prefetching i scheduling integracijom.

Za LLM use case posebno, Fluid omogućava:

  • Pod-level affinity — Kubernetes scheduler može prioritizirati raspored pod-a na node gdje je model već cached
  • Asynchronous prefetch — model se može pre-load-ati prije nego što pod-u zatreba
  • Shared cache across team — više timova može dijeliti isti model bez višestrukog kopiranja

Što ovo znači za production LLM inference?

Cold start latency je kritični problem za serverless ili auto-scaling LLM deployments. Industrijski standardi (OpenAI, Anthropic) postižu pod-second cold start time za svoje proprietary stack-ove, ali to je rezultat custom infrastructure-a koju open-source community ne može lako reproducirati.

NetEase case study daje konkretan blueprint koji druge kompanije mogu pratiti koristeći open-source komponente (Kubernetes + Fluid + vLLM). Ispod 30 sekundi cold start za 70B model je prihvatljiv za većinu production workloadova — usporedivo s vremenom potrebno za scaling event u tipičnom mikroservisu.

Za CNCF, ovaj case study je validacija Fluid projekta kao production-ready alata. Vrijedi pratiti hoće li drugi LLM serving operatori (Replicate, Together AI, Anyscale) usvojiti slične Fluid-based pristupe za vlastite multi-tenant LLM platforme.

Česta pitanja

Što je Fluid u kontekstu CNCF projekata?
Fluid je CNCF-inkubirani projekt za orkestraciju data-intensive workloadova na Kubernetes-u, posebno fokusiran na ubrzanje pristupa velikim dataset-ima kroz prefetching i caching slojeve.
Koliko je NetEase Games smanjio LLM cold start vrijeme?
S 42 minute (direktan pristup) na manje od 30 sekundi, kroz međufaze od 14 i 3 minute, koristeći Fluid prefetching i pre-warming strategije.
Koje veličine modela NetEase Games koristi?
70B-klasni LLM modeli, što odgovara modelima kao što su Llama 3 70B, Qwen 2.5 72B ili sličnim arhitekturama.