AWS: Container-Caching in SageMaker AI verkürzt Inferenz-Skalierungslatenz um bis zu 50%
AWS führte das Caching von Container-Images in Amazon SageMaker AI ein, das ECR-Abrufe beim Skalieren automatisch und ohne Opt-in eliminiert. Für Qwen3-8B sank die Startlatenz von 525 auf 258 Sekunden, etwa 51%. Nutzer berichten von 38–65% geringerer P50-Latenz und bis zu 2× schnellerer End-to-End-Skalierung. Die Funktion ist auf allen Beschleuniger-Instanztypen in allen kommerziellen AWS-Regionen verfügbar.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
AWS führte das Caching von Container-Images in Amazon SageMaker AI ein, das die Inferenzskalierung beschleunigt — einen der häufigsten Engpässe beim Modell-Serving.
Welches Problem löst das Caching?
Wenn ein Dienst die Anzahl der Instanzen erhöht, um mehr Datenverkehr zu bewältigen, muss jede neue Instanz das Container-Image normalerweise aus Amazon ECR (der Image-Registry) abrufen, was Zeit kostet. Das neue Container-Caching speichert dieses Image vor, sodass beim Skalieren kein Abruf erforderlich ist. Die Funktion ist automatisch aktiviert, ohne dass das Entwicklungsteam ein Opt-in vornehmen muss.
Wie groß ist die Beschleunigung?
Beim Modell Qwen3-8B sank die Startlatenz von 525 auf 258 Sekunden — etwa 51%. Nutzer berichten allgemein von 38–65% geringerer P50-Latenz und bis zu 2× schnellerer End-to-End-Skalierung. Das bedeutet, dass Dienste schneller auf plötzliche Verkehrsspitzen reagieren, ohne Leerlaufzeit während der Vorbereitung neuer Instanzen.
Wo ist es verfügbar?
Das Caching funktioniert auf allen Beschleuniger-Instanztypen (wie g4dn und g5) in allen kommerziellen AWS-Regionen und ist allgemein verfügbar (GA), nicht als Vorschau. Für Teams, die große Modelle unter variablem Datenverkehr betreiben, reduziert schnellere Skalierung direkt die Latenz und die Kosten für Reservekapazitäten.
Häufig gestellte Fragen
- Was bewirkt das Container-Caching in SageMaker AI?
- Es speichert Container-Images zwischen, sodass beim Skalieren kein ECR-Abruf nötig ist; automatisch aktiviert, kein Opt-in erforderlich.
- Wie sehr beschleunigt es die Skalierung?
- Für Qwen3-8B sank die Startlatenz von 525 auf 258 Sekunden (~51%), mit bis zu 2× schnellerer End-to-End-Skalierung.
Verwandte Nachrichten
Anthropic: Studie zu agentischem Coding — Nutzer treffen 70% der Planungsentscheidungen, Claude 80% der Ausführungsentscheidungen
Google DeepMind: KI-Tool für britische Baugenehmigungen zielt auf 50% schnellere Entscheidungen und 1,5 Millionen neue Wohnungen
Anthropic: Claude Code v2.1.178 führt Parameter-Abgleich bei Berechtigungen und verschachtelte Skills ein