AWS:SageMaker获得100余项详细推理指标和CloudWatch Insights监控面板
Amazon SageMaker是AWS的机器学习平台,现已将100余项详细的生成式AI推理指标发布至CloudWatch,并通过新的Insights监控面板提供访问。面板显示token级延迟(TTFT、token间延迟)、KV缓存跟踪和冷启动诊断,并通过PromQL端点与Grafana和Datadog兼容。
本文由人工智能基于一手来源生成。
Amazon 宣布 SageMaker——AWS 的托管机器学习平台——现在将100余项详细指标直接发布至 CloudWatch(AWS 的监控服务),用于生成式 AI 推理。随指标一同推出的还有新的 SageMaker Insights 监控面板,包含 Performance、Capacity 和 Reliability 三个选项卡。目标是为团队提供此前需要自定义监控才能获得的洞察。
面板测量什么
推理是训练好的模型实时响应请求的阶段,因此延迟是关键指标。新面板跟踪 token 级延迟——首 token 时间(TTFT,time-to-first-token)和 token 间延迟——以及 KV 缓存(模型用于加速生成的键值内存)跟踪、Honeycomb 机群可视化和冷启动诊断。面板同时支持单模型和多模型(推理组件)端点。
与以往方法有何不同
此前,团队需要自行构建监控或依赖外部工具才能获得这一级别的洞察。SageMaker 现以 OpenTelemetry 格式提供指标,通过 PromQL 兼容端点连接 Grafana 和 Datadog,并提供预制的 Grafana 模板。计费采用 CloudWatch OpenTelemetry 标准价格,每 GB 0.50 美元。
对实践意味着什么
更详细的指标帮助工程师无需手动监控即可诊断冷启动慢或 KV 缓存溢出等瓶颈。对于在生产环境中部署大型语言模型的组织而言,TTFT 和 token 间延迟的测量直接影响用户体验和成本,标准化仪表板缩短了故障诊断时间。
常见问题
- SageMaker现在发布多少指标?
- SageMaker向CloudWatch发布100余项详细推理指标,包括token级延迟、KV缓存跟踪和冷启动诊断。
- Insights面板支持哪些工具?
- 面板直接在CloudWatch中运行,并通过PromQL兼容端点与Grafana和Datadog集成,提供现成模板。
- 费用是多少?
- 按CloudWatch OpenTelemetry标准价格计费,每GB 0.50美元。