SageMaker: 100+ Inference-Metriken auf CloudWatch

Amazon SageMaker, AWSs Plattform für maschinelles Lernen, gibt jetzt mehr als 100 detaillierte Metriken für generativen KI-Inference an CloudWatch aus, verfügbar über das neue Insights-Dashboard. Das Dashboard zeigt Token-Level-Latenz (TTFT, Inter-Token-Latenz), KV-Cache-Tracking und Kaltstart-Diagnostik und ist über einen PromQL-Endpunkt mit Grafana und Datadog kompatibel.

Amazon gab bekannt, dass SageMaker — AWSs verwaltete Plattform für maschinelles Lernen — jetzt mehr als 100 detaillierte Metriken für generativen KI-Inference direkt in CloudWatch, AWSs Monitoring-Dienst, ausgibt. Zusammen mit den Metriken kommt ein neues SageMaker Insights-Dashboard mit Reitern für Performance, Kapazität und Zuverlässigkeit. Ziel ist es, Teams die Sichtbarkeit zu geben, die bisher eine benutzerdefinierte Instrumentierung erforderte.

Was das Dashboard misst

Inference ist die Phase, in der ein trainiertes Modell Anfragen in Echtzeit beantwortet, weshalb Latenz die entscheidende Metrik ist. Das neue Dashboard verfolgt die Token-Level-Latenz — Zeit bis zum ersten Token (TTFT) und Inter-Token-Latenz — sowie das KV-Cache-Tracking (der Schlüssel-Wert-Speicher, den das Modell zur Beschleunigung der Generierung nutzt), Honeycomb-Fleet-Visualisierung und Kaltstart-Diagnostik. Das Dashboard deckt sowohl Einzelmodell- als auch Mehrmodell-Endpunkte (Inference Components) ab.

Unterschied zum bisherigen Ansatz

Bisher mussten Teams für diese Ebene der Sichtbarkeit eigene Instrumentierung aufbauen oder sich auf externe Tools verlassen. SageMaker liefert Metriken jetzt im OpenTelemetry-Format, sodass es sich über einen PromQL-kompatiblen Endpunkt mit Grafana und Datadog über vorgefertigte Grafana-Templates verbindet. Die Abrechnung erfolgt zum Standardpreis von CloudWatch OpenTelemetry mit 0,50 USD pro Gigabyte.

Bedeutung für die Praxis

Detailliertere Metriken helfen Ingenieuren, Engpässe wie langsame Kaltstarts oder einen überlasteten KV-Cache ohne manuelle Instrumentierung zu diagnostizieren. Für Organisationen, die große Sprachmodelle in der Produktion betreiben, beeinflusst das Messen von TTFT und Inter-Token-Latenz direkt die Nutzererfahrung und Kosten — ein standardisiertes Dashboard verkürzt die Zeit bis zur Fehlerdiagnose.

Häufig gestellte Fragen

Wie viele Metriken gibt SageMaker jetzt aus?

SageMaker gibt mehr als 100 detaillierte Inference-Metriken an CloudWatch aus, einschließlich Token-Level-Latenz, KV-Cache-Tracking und Kaltstart-Diagnostik.

Welche Tools unterstützt das Insights-Dashboard?

Das Dashboard funktioniert direkt in CloudWatch und integriert sich über einen PromQL-kompatiblen Endpunkt mit Grafana und Datadog mit vorgefertigten Templates.

Was kostet es?

Es wird zum Standardpreis von CloudWatch OpenTelemetry von 0,50 USD pro Gigabyte abgerechnet.

AWS: SageMaker erhält über 100 detaillierte Inference-Metriken und Insights-Dashboard auf CloudWatch

Was das Dashboard misst

Unterschied zum bisherigen Ansatz

Bedeutung für die Praxis

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten