AWS:SageMaker AI 컨테이너 캐싱으로 추론 스케일링 지연을 최대 50% 단축
AWS가 Amazon SageMaker AI에 컨테이너 이미지 사전 캐싱 기능을 도입했습니다. 스케일링 시 ECR에서 이미지를 가져올 필요가 없어지며 자동으로 활성화됩니다. Qwen3-8B의 경우 시작 지연이 525초에서 258초로 약 51% 감소했습니다. 사용자들은 P50 지연이 38~65% 감소하고 엔드-투-엔드 스케일링이 최대 2배 빨라졌다고 보고합니다. 이 기능은 모든 상용 AWS 리전의 모든 가속기 인스턴스 유형에서 사용 가능합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
AWS가 Amazon SageMaker AI에 컨테이너 이미지 사전 캐싱 기능을 도입하여 모델 서빙에서 가장 흔한 병목 중 하나인 추론 스케일링을 가속화했습니다.
컨테이너 캐싱은 어떤 문제를 해결합니까?
서비스가 더 많은 트래픽을 처리하기 위해 인스턴스 수를 확장할 때, 각 새 인스턴스는 일반적으로 Amazon ECR(이미지 레지스트리)에서 컨테이너 이미지를 가져와야 하며 이는 시간이 소요됩니다. 새로운 컨테이너 캐싱 기능은 해당 이미지를 사전 캐싱하여 스케일링 시 가져오기가 필요 없습니다. 이 기능은 개발팀의 별도 설정 없이 자동으로 활성화됩니다.
속도 향상이 얼마나 됩니까?
Qwen3-8B 모델의 시작 지연이 525초에서 258초로 감소했으며 약 51%의 개선입니다. 사용자들은 전반적으로 P50 지연이 38~65% 감소하고 엔드-투-엔드 스케일링이 최대 2배 빨라졌다고 보고합니다. 이는 새 인스턴스 준비를 기다리는 유휴 시간 없이 서비스가 갑작스러운 트래픽 급증에 더 빠르게 대응할 수 있음을 의미합니다.
어디서 사용 가능합니까?
캐싱 기능은 모든 상용 AWS 리전의 모든 가속기 인스턴스 유형(예: g4dn, g5)에서 사용 가능하며, 프리뷰가 아닌 일반 가용(GA) 상태입니다. 변동하는 트래픽 하에서 대형 모델을 서빙하는 팀의 경우 더 빠른 스케일링은 지연과 예비 용량 비용을 직접 줄여줍니다.
자주 묻는 질문
- SageMaker AI의 컨테이너 캐싱은 무엇을 합니까?
- 컨테이너 이미지를 사전 캐싱하여 스케일링 시 ECR에서 가져올 필요가 없어집니다. 자동으로 활성화되어 별도 설정이 필요 없습니다.
- 스케일링을 얼마나 빠르게 합니까?
- Qwen3-8B의 경우 시작 지연이 525초에서 258초로 감소(약 51%)하고, 엔드-투-엔드 스케일링이 최대 2배 빨라집니다.