AWS:SageMakerが100以上の詳細な推論メトリクスとCloudWatch Insightsダッシュボードを取得
Amazon SageMakerはAWSの機械学習プラットフォームで、生成AIの推論に関する100以上の詳細なメトリクスをCloudWatchに送信し、新しいInsightsダッシュボードからアクセス可能になりました。ダッシュボードはトークンレベルのレイテンシ(TTFT、トークン間レイテンシ)、KVキャッシュ追跡、コールドスタート診断を表示し、PromQLエンドポイントを通じてGrafanaやDatadogと互換性があります。
この記事はAIにより一次情報源から生成されました。
Amazon は SageMaker——AWS のマネージド機械学習プラットフォーム——が生成 AI の推論に関する100以上の詳細なメトリクスを CloudWatch(AWS の監視サービス)に直接送信するようになったと発表しました。メトリクスとともに、Performance、Capacity、Reliability の3つのタブを持つ新しい SageMaker Insights ダッシュボードが提供されます。目標は、これまでカスタム計装が必要だった洞察をチームに提供することです。
ダッシュボードが測定するもの
推論はトレーニング済みモデルがリアルタイムでリクエストに応答するフェーズであり、レイテンシは重要な指標です。新しいダッシュボードはトークンレベルのレイテンシ——最初のトークンまでの時間(TTFT、time-to-first-token)とトークン間レイテンシ——に加え、KV キャッシュ(モデルが生成を高速化するために使用するキー・バリューメモリ)追跡、Honeycomb フリートビジュアライゼーション、コールドスタート診断を追跡します。単一モデルおよびマルチモデル(推論コンポーネント)エンドポイントの両方をカバーします。
従来の手法との違い
以前は、このレベルの洞察を得るためにチームが自前で計装を構築するか外部ツールに頼る必要がありました。SageMaker は OpenTelemetry 形式でメトリクスを提供するようになり、PromQL 互換エンドポイントを通じて Grafana や Datadog に接続でき、あらかじめ用意された Grafana テンプレートも利用できます。料金は CloudWatch OpenTelemetry の標準料金で GB 当たり 0.50 ドルです。
実務への影響
より詳細なメトリクスにより、エンジニアは手動の計装なしにコールドスタートの遅延や KV キャッシュの枯渇といったボトルネックを診断できます。本番環境で大型言語モデルを提供する組織にとって、TTFT やトークン間レイテンシの測定はユーザー体験とコストに直結するため、標準化されたダッシュボードにより障害診断にかかる時間が短縮されます。
よくある質問
- SageMakerは今何個のメトリクスを送信しますか?
- SageMakerはCloudWatchへ100以上の詳細な推論メトリクスを送信します。トークンレベルのレイテンシ、KVキャッシュ追跡、コールドスタート診断を含みます。
- Insightsダッシュボードはどんなツールに対応していますか?
- CloudWatch上で直接動作し、PromQL互換エンドポイントを通じてGrafanaやDatadogと統合でき、すぐに使えるGrafanaテンプレートが用意されています。
- 料金はいくらですか?
- CloudWatch OpenTelemetryの標準料金でGB当たり0.50ドルの課金です。