AWS: SageMaker erhält über 100 detaillierte Inference-Metriken und Insights-Dashboard auf CloudWatch
Amazon SageMaker, AWSs Plattform für maschinelles Lernen, gibt jetzt mehr als 100 detaillierte Metriken für generativen KI-Inference an CloudWatch aus, verfügbar über das neue Insights-Dashboard. Das Dashboard zeigt Token-Level-Latenz (TTFT, Inter-Token-Latenz), KV-Cache-Tracking und Kaltstart-Diagnostik und ist über einen PromQL-Endpunkt mit Grafana und Datadog kompatibel.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Amazon gab bekannt, dass SageMaker — AWSs verwaltete Plattform für maschinelles Lernen — jetzt mehr als 100 detaillierte Metriken für generativen KI-Inference direkt in CloudWatch, AWSs Monitoring-Dienst, ausgibt. Zusammen mit den Metriken kommt ein neues SageMaker Insights-Dashboard mit Reitern für Performance, Kapazität und Zuverlässigkeit. Ziel ist es, Teams die Sichtbarkeit zu geben, die bisher eine benutzerdefinierte Instrumentierung erforderte.
Was das Dashboard misst
Inference ist die Phase, in der ein trainiertes Modell Anfragen in Echtzeit beantwortet, weshalb Latenz die entscheidende Metrik ist. Das neue Dashboard verfolgt die Token-Level-Latenz — Zeit bis zum ersten Token (TTFT) und Inter-Token-Latenz — sowie das KV-Cache-Tracking (der Schlüssel-Wert-Speicher, den das Modell zur Beschleunigung der Generierung nutzt), Honeycomb-Fleet-Visualisierung und Kaltstart-Diagnostik. Das Dashboard deckt sowohl Einzelmodell- als auch Mehrmodell-Endpunkte (Inference Components) ab.
Unterschied zum bisherigen Ansatz
Bisher mussten Teams für diese Ebene der Sichtbarkeit eigene Instrumentierung aufbauen oder sich auf externe Tools verlassen. SageMaker liefert Metriken jetzt im OpenTelemetry-Format, sodass es sich über einen PromQL-kompatiblen Endpunkt mit Grafana und Datadog über vorgefertigte Grafana-Templates verbindet. Die Abrechnung erfolgt zum Standardpreis von CloudWatch OpenTelemetry mit 0,50 USD pro Gigabyte.
Bedeutung für die Praxis
Detailliertere Metriken helfen Ingenieuren, Engpässe wie langsame Kaltstarts oder einen überlasteten KV-Cache ohne manuelle Instrumentierung zu diagnostizieren. Für Organisationen, die große Sprachmodelle in der Produktion betreiben, beeinflusst das Messen von TTFT und Inter-Token-Latenz direkt die Nutzererfahrung und Kosten — ein standardisiertes Dashboard verkürzt die Zeit bis zur Fehlerdiagnose.
Häufig gestellte Fragen
- Wie viele Metriken gibt SageMaker jetzt aus?
- SageMaker gibt mehr als 100 detaillierte Inference-Metriken an CloudWatch aus, einschließlich Token-Level-Latenz, KV-Cache-Tracking und Kaltstart-Diagnostik.
- Welche Tools unterstützt das Insights-Dashboard?
- Das Dashboard funktioniert direkt in CloudWatch und integriert sich über einen PromQL-kompatiblen Endpunkt mit Grafana und Datadog mit vorgefertigten Templates.
- Was kostet es?
- Es wird zum Standardpreis von CloudWatch OpenTelemetry von 0,50 USD pro Gigabyte abgerechnet.
Verwandte Nachrichten
Anthropic: Claude Code v2.1.183 blockiert destruktive Git- und Infrastrukturbefehle im Auto-Modus
GitHub: Copilot stellt Opus 4.6 (fast) am 29. Juni ein, fügt AGENTS.md zu Code Review hinzu und ai_credits_used-Feld zur API
arXiv:2606.19245: TxBench-PP — KI-Agenten auf der Suche nach neuen Medikamenten