🟡 🏥 実践 公開日: · 2 分で読めます ·

AWS:SageMakerが100以上の詳細な推論メトリクスとCloudWatch Insightsダッシュボードを取得

編集用イラスト:レイテンシとトークンスループットのグラフを表示するダッシュボード

Amazon SageMakerはAWSの機械学習プラットフォームで、生成AIの推論に関する100以上の詳細なメトリクスをCloudWatchに送信し、新しいInsightsダッシュボードからアクセス可能になりました。ダッシュボードはトークンレベルのレイテンシ(TTFT、トークン間レイテンシ)、KVキャッシュ追跡、コールドスタート診断を表示し、PromQLエンドポイントを通じてGrafanaやDatadogと互換性があります。

🤖

この記事はAIにより一次情報源から生成されました。

Amazon は SageMaker——AWS のマネージド機械学習プラットフォーム——が生成 AI の推論に関する100以上の詳細なメトリクスを CloudWatch(AWS の監視サービス)に直接送信するようになったと発表しました。メトリクスとともに、Performance、Capacity、Reliability の3つのタブを持つ新しい SageMaker Insights ダッシュボードが提供されます。目標は、これまでカスタム計装が必要だった洞察をチームに提供することです。

ダッシュボードが測定するもの

推論はトレーニング済みモデルがリアルタイムでリクエストに応答するフェーズであり、レイテンシは重要な指標です。新しいダッシュボードはトークンレベルのレイテンシ——最初のトークンまでの時間(TTFT、time-to-first-token)とトークン間レイテンシ——に加え、KV キャッシュ(モデルが生成を高速化するために使用するキー・バリューメモリ)追跡、Honeycomb フリートビジュアライゼーション、コールドスタート診断を追跡します。単一モデルおよびマルチモデル(推論コンポーネント)エンドポイントの両方をカバーします。

従来の手法との違い

以前は、このレベルの洞察を得るためにチームが自前で計装を構築するか外部ツールに頼る必要がありました。SageMaker は OpenTelemetry 形式でメトリクスを提供するようになり、PromQL 互換エンドポイントを通じて Grafana や Datadog に接続でき、あらかじめ用意された Grafana テンプレートも利用できます。料金は CloudWatch OpenTelemetry の標準料金で GB 当たり 0.50 ドルです。

実務への影響

より詳細なメトリクスにより、エンジニアは手動の計装なしにコールドスタートの遅延や KV キャッシュの枯渇といったボトルネックを診断できます。本番環境で大型言語モデルを提供する組織にとって、TTFT やトークン間レイテンシの測定はユーザー体験とコストに直結するため、標準化されたダッシュボードにより障害診断にかかる時間が短縮されます。

よくある質問

SageMakerは今何個のメトリクスを送信しますか?
SageMakerはCloudWatchへ100以上の詳細な推論メトリクスを送信します。トークンレベルのレイテンシ、KVキャッシュ追跡、コールドスタート診断を含みます。
Insightsダッシュボードはどんなツールに対応していますか?
CloudWatch上で直接動作し、PromQL互換エンドポイントを通じてGrafanaやDatadogと統合でき、すぐに使えるGrafanaテンプレートが用意されています。
料金はいくらですか?
CloudWatch OpenTelemetryの標準料金でGB当たり0.50ドルの課金です。