SageMaker：CloudWatch上100+项推理指标

Amazon SageMaker是AWS的机器学习平台，现已将100余项详细的生成式AI推理指标发布至CloudWatch，并通过新的Insights监控面板提供访问。面板显示token级延迟（TTFT、token间延迟）、KV缓存跟踪和冷启动诊断，并通过PromQL端点与Grafana和Datadog兼容。

Amazon 宣布 SageMaker——AWS 的托管机器学习平台——现在将100余项详细指标直接发布至 CloudWatch（AWS 的监控服务），用于生成式 AI 推理。随指标一同推出的还有新的 SageMaker Insights 监控面板，包含 Performance、Capacity 和 Reliability 三个选项卡。目标是为团队提供此前需要自定义监控才能获得的洞察。

面板测量什么

推理是训练好的模型实时响应请求的阶段，因此延迟是关键指标。新面板跟踪 token 级延迟——首 token 时间（TTFT，time-to-first-token）和 token 间延迟——以及 KV 缓存（模型用于加速生成的键值内存）跟踪、Honeycomb 机群可视化和冷启动诊断。面板同时支持单模型和多模型（推理组件）端点。

与以往方法有何不同

此前，团队需要自行构建监控或依赖外部工具才能获得这一级别的洞察。SageMaker 现以 OpenTelemetry 格式提供指标，通过 PromQL 兼容端点连接 Grafana 和 Datadog，并提供预制的 Grafana 模板。计费采用 CloudWatch OpenTelemetry 标准价格，每 GB 0.50 美元。

对实践意味着什么

更详细的指标帮助工程师无需手动监控即可诊断冷启动慢或 KV 缓存溢出等瓶颈。对于在生产环境中部署大型语言模型的组织而言，TTFT 和 token 间延迟的测量直接影响用户体验和成本，标准化仪表板缩短了故障诊断时间。

常见问题

SageMaker现在发布多少指标？

SageMaker向CloudWatch发布100余项详细推理指标，包括token级延迟、KV缓存跟踪和冷启动诊断。

Insights面板支持哪些工具？

面板直接在CloudWatch中运行，并通过PromQL兼容端点与Grafana和Datadog集成，提供现成模板。

费用是多少？

按CloudWatch OpenTelemetry标准价格计费，每GB 0.50美元。

AWS：SageMaker获得100余项详细推理指标和CloudWatch Insights监控面板

面板测量什么

与以往方法有何不同

对实践意味着什么

常见问题

来源

相关新闻