CNCF Fluid：K8s에서 70B LLM 콜드 스타트 30초 미만

CNCF는 2026년 5월 21일 NetEase Games(저자 廖海峰·張翔)의 사례 연구를 공개했다. CNCF 인큐베이션 프로젝트 Fluid를 이용해 70B급 LLM 모델 로딩 시간을 S3 직접 접근 시의 42분에서 30초 미만으로 줄인 방법을 상세히 설명한다. 핵심은 팀 간 모델을 공유하는 Fluid 프리페칭 레이어와 콜드 스타트를 제거하는 사전 워밍 스케줄링이다. Kubernetes에서 대형 모델로 서버리스 LLM 추론을 운영하는 엔지니어를 위한 기술 사례 연구다.

CNCF（Cloud Native Computing Foundation） 블로그는 2026년 5월 21일 중국 최대 게임 회사 중 하나인 NetEase Games의 기술 사례 연구를 공개했다. NetEase Games 인프라 팀의 廖海峰과 張翔이 작성했으며, 대형 LLM 모델을 Kubernetes 서빙 스택에 로드하는 시간을 재앙 수준의 42분에서 30초 미만으로 줄인 방법을 상세히 설명한다.

처음 해결하려 했던 문제는 무엇인가？

NetEase Games는 여러 프로덕션 사용 사례 — 게임 내 AI NPC 대화, 콘텐츠 모더레이션, 자동 번역 — 에 70B급(Llama 3, Qwen 또는 유사) LLM 모델을 활용한다. 모델이 너무 커서 클러스터 전체 노드 메모리에 상주시킬 수 없어 모든 스케일링 이벤트나 Pod 재시작 시 온디맨드로 로드해야 한다.

S3 호환 오브젝트 스토리지에서 직접 모델에 접근하면 70B 모델을 GPU 메모리에 완전히 로드하는 데 42분 이 걸렸다. 이는 프로덕션 워크로드에서 용납할 수 없다 — 모든 스케일링 이벤트가 새 Pod에 42분 중단을 야기하는 것을 의미한다.

어떤 최적화 단계를 거쳤는가？

NetEase는 여러 단계로 최적화를 진행했다.

1단계 — S3 직접 접근：42분. 기준값.

2단계 — Fluid 분산 캐시：14분. P2P 전송을 통해 클러스터 내 노드 간 모델을 공유하는 CNCF Fluid 프로젝트 구현. 각 Pod가 S3에서 직접 가져오는 대신 새 Pod가 이미 캐싱한 인접 노드에서 모델을 가져올 수 있다.

3단계 — 로컬 SSD 캐시를 갖춘 Fluid：3분. 가장 자주 사용되는 모델의 워밍 복사본을 보관하는 로컬 SSD 캐싱 레이어 추가. 새 스케일링 이벤트 시 모델이 이미 로컬 캐시에 있어 네트워크 전송이 불필요하다.

4단계 — 사전 워밍 + 예측 스케줄링：30초 미만. 사전 워밍 전략 — 시스템이 과거 부하 패턴을 바탕으로 새 Pod가 언제 필요할지 예측하고 Pod가 실제로 필요하기 전에 모델을 미리 로드한다. 모델이 이미 메모리에 있는 노드에 새 Pod를 배치하는 예측 스케줄링과 결합한다.

CNCF 프로젝트로서 Fluid는 무엇인가？

Fluid는 Kubernetes 데이터 오케스트레이션 에 특화된 CNCF 인큐베이션 프로젝트다. 주요 사용 사례는 LLM 가중치, 훈련 데이터셋, 과학 데이터 등 대형 데이터셋에 대한 접근 가속화다. Fluid는 기반 스토리지（S3, GCS, HDFS, NFS）를 추상화하고 내장된 캐싱, 프리페칭, 스케줄링 통합을 갖춘 통합 레이어를 제공한다.

LLM 사용 사례에서 Fluid는 특히：

Pod 수준 친화성 — Kubernetes 스케줄러가 모델을 이미 캐싱한 노드로 Pod 스케줄링을 우선할 수 있음
비동기 프리페치 — Pod가 필요하기 전에 모델을 미리 로드
팀 간 공유 캐시 — 여러 팀이 다중 복사 없이 같은 모델 공유

프로덕션 LLM 추론에 무엇을 의미하는가？

콜드 스타트 지연은 서버리스 또는 자동 스케일링 LLM 배포의 핵심 문제 다. 업계 표준（OpenAI, Anthropic）은 독점 스택에서 서브초 콜드 스타트 시간을 달성하지만 이는 오픈소스 커뮤니티가 쉽게 재현할 수 없는 맞춤형 인프라의 결과다.

NetEase 사례 연구는 다른 회사들이 오픈소스 컴포넌트（Kubernetes + Fluid + vLLM）를 사용해 따를 수 있는 구체적인 청사진 을 제공한다. 70B 모델의 30초 미만 콜드 스타트는 대부분의 프로덕션 워크로드에서 허용 가능하며 — 일반적인 마이크로서비스의 스케일링 이벤트에 필요한 시간과 비슷하다.

CNCF에게 이 사례 연구는 Fluid 프로젝트가 프로덕션 준비 도구로서의 검증 이다. 다른 LLM 서빙 운영사（Replicate, Together AI, Anyscale）가 자체 멀티 테넌트 LLM 플랫폼에 유사한 Fluid 기반 접근 방식을 채택할지 주목할 필요가 있다.

자주 묻는 질문

CNCF 프로젝트 맥락에서 Fluid란 무엇인가？

Fluid는 Kubernetes의 데이터 집약형 워크로드 오케스트레이션에 특화된 CNCF 인큐베이션 프로젝트로, 프리페칭 및 캐싱 레이어를 통해 대형 데이터셋 접근을 가속화하는 데 중점을 둔다.

NetEase Games는 LLM 콜드 스타트 시간을 얼마나 줄였는가？

Fluid 프리페칭과 사전 워밍 전략을 통해 42분(직접 접근)에서 14분·3분의 중간 단계를 거쳐 30초 미만으로 줄였다.

NetEase Games는 어떤 크기의 모델을 사용하는가？

Llama 3 70B, Qwen 2.5 72B 또는 유사한 아키텍처에 해당하는 70B급 LLM 모델이다.

CNCF：NetEase Games, Fluid 프리페칭 레이어로 Kubernetes LLM 콜드 스타트 30초 달성

처음 해결하려 했던 문제는 무엇인가？

어떤 최적화 단계를 거쳤는가？

CNCF 프로젝트로서 Fluid는 무엇인가？

프로덕션 LLM 추론에 무엇을 의미하는가？

자주 묻는 질문

출처

관련 뉴스