AWS SageMaker: Caching für schnellere Skalierung

AWS führte das Caching von Container-Images in Amazon SageMaker AI ein, das ECR-Abrufe beim Skalieren automatisch und ohne Opt-in eliminiert. Für Qwen3-8B sank die Startlatenz von 525 auf 258 Sekunden, etwa 51%. Nutzer berichten von 38–65% geringerer P50-Latenz und bis zu 2× schnellerer End-to-End-Skalierung. Die Funktion ist auf allen Beschleuniger-Instanztypen in allen kommerziellen AWS-Regionen verfügbar.

AWS führte das Caching von Container-Images in Amazon SageMaker AI ein, das die Inferenzskalierung beschleunigt — einen der häufigsten Engpässe beim Modell-Serving.

Welches Problem löst das Caching?

Wenn ein Dienst die Anzahl der Instanzen erhöht, um mehr Datenverkehr zu bewältigen, muss jede neue Instanz das Container-Image normalerweise aus Amazon ECR (der Image-Registry) abrufen, was Zeit kostet. Das neue Container-Caching speichert dieses Image vor, sodass beim Skalieren kein Abruf erforderlich ist. Die Funktion ist automatisch aktiviert, ohne dass das Entwicklungsteam ein Opt-in vornehmen muss.

Wie groß ist die Beschleunigung?

Beim Modell Qwen3-8B sank die Startlatenz von 525 auf 258 Sekunden — etwa 51%. Nutzer berichten allgemein von 38–65% geringerer P50-Latenz und bis zu 2× schnellerer End-to-End-Skalierung. Das bedeutet, dass Dienste schneller auf plötzliche Verkehrsspitzen reagieren, ohne Leerlaufzeit während der Vorbereitung neuer Instanzen.

Wo ist es verfügbar?

Das Caching funktioniert auf allen Beschleuniger-Instanztypen (wie g4dn und g5) in allen kommerziellen AWS-Regionen und ist allgemein verfügbar (GA), nicht als Vorschau. Für Teams, die große Modelle unter variablem Datenverkehr betreiben, reduziert schnellere Skalierung direkt die Latenz und die Kosten für Reservekapazitäten.

Häufig gestellte Fragen

Was bewirkt das Container-Caching in SageMaker AI?

Es speichert Container-Images zwischen, sodass beim Skalieren kein ECR-Abruf nötig ist; automatisch aktiviert, kein Opt-in erforderlich.

Wie sehr beschleunigt es die Skalierung?

Für Qwen3-8B sank die Startlatenz von 525 auf 258 Sekunden (~51%), mit bis zu 2× schnellerer End-to-End-Skalierung.

AWS: Container-Caching in SageMaker AI verkürzt Inferenz-Skalierungslatenz um bis zu 50%

Welches Problem löst das Caching?

Wie groß ist die Beschleunigung?

Wo ist es verfügbar?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten