SageMaker AI中的容器缓存做什么？

预缓存容器镜像，扩展时无需从ECR拉取；自动启用，无需手动配置。

它能加快多少扩展速度？

对于Qwen3-8B，启动延迟从525秒降至258秒（约51%），端到端扩展速度最高提升2倍。

AWS SageMaker：容器缓存实现更快扩展

AWS在Amazon SageMaker AI中引入了容器镜像预缓存功能，在扩展时无需从ECR拉取镜像，自动启用无需手动配置。对于Qwen3-8B，启动延迟从525秒降至258秒，约51%。用户报告P50延迟降低38~65%，端到端扩展速度最高提升2倍。该功能适用于所有商业AWS区域的所有加速器实例类型。

AWS在Amazon SageMaker AI中引入了容器镜像预缓存功能，加速推理扩展——这是模型服务中最常见的瓶颈之一。

容器缓存解决什么问题？

当服务扩展实例数量以处理更多流量时，每个新实例通常需要从Amazon ECR（镜像仓库）拉取容器镜像，这会消耗时间。新的容器缓存功能预缓存镜像，扩展时无需拉取。该功能自动启用，开发团队无需手动配置。

速度提升有多大？

Qwen3-8B模型的启动延迟从525秒降至258秒——约51%。用户普遍报告P50延迟降低38~65%，端到端扩展速度最高提升2倍。这意味着服务能更快响应流量突增，无需等待新实例就绪的空窗期。

在哪里可用？

缓存功能适用于所有商业AWS区域的所有加速器实例类型（如g4dn和g5），已全面可用（GA），而非预览阶段。对于在流量波动下服务大型模型的团队，更快的扩展直接减少了延迟和预留容量成本。

AWS：SageMaker AI容器缓存将推理扩展延迟缩短最多50%

容器缓存解决什么问题？

速度提升有多大？

在哪里可用？

常见问题

来源

相关新闻