🟡 🏥 U praksi Objavljeno: · 1 min čitanja ·

AWS: Keširanje kontejnera u SageMaker AI skraćuje skaliranje inferencije do 50%

Editorial ilustracija: brže skaliranje AI inferencije keširanjem kontejnera

AWS je u Amazon SageMaker AI uveo predmemoriju kontejnerskih slika koja uklanja povlačenje iz ECR-a pri skaliranju, automatski i bez uključivanja. Za Qwen3-8B latencija pokretanja pala je s 525 na 258 sekundi, oko 51%. Korisnici bilježe 38–65% manju P50 latenciju i do 2× brže skaliranje s kraja na kraj. Značajka je dostupna na svim akceleratorskim tipovima instanci u svim komercijalnim AWS regijama.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

AWS je u Amazon SageMaker AI uveo predmemoriju kontejnerskih slika koja ubrzava skaliranje inferencije, jednog od najčešćih uskih grla pri posluživanju modela.

Koji problem keširanje rješava?

Kad servis skalira broj instanci da podnese više prometa, svaka nova instanca obično mora povući kontejnersku sliku iz Amazon ECR-a (registar slika), što troši vrijeme. Novo keširanje kontejnera predmemorira tu sliku, pa pri skaliranju nema povlačenja. Značajka je uključena automatski, bez potrebe za opt-inom razvojnog tima.

Koliko je ubrzanje?

Za model Qwen3-8B latencija pokretanja pala je s 525 na 258 sekundi — oko 51%. Korisnici općenito bilježe 38–65% manju P50 latenciju i do 2× brže skaliranje s kraja na kraj. To znači da servisi brže reagiraju na nagle skokove prometa, bez praznog hoda dok se nove instance pripremaju.

Gdje je dostupno?

Keširanje radi na svim akceleratorskim tipovima instanci (poput g4dn i g5) u svim komercijalnim AWS regijama i u općoj je dostupnosti (GA), ne u previewu. Za timove koji poslužuju velike modele uz promjenjiv promet, brže skaliranje izravno smanjuje latenciju i trošak rezervnog kapaciteta.

Česta pitanja

Što radi keširanje kontejnera u SageMaker AI?
Predmemorira kontejnerske slike pa pri skaliranju nema povlačenja iz ECR-a; uključeno je automatski, bez opt-ina.
Koliko ubrzava skaliranje?
Za Qwen3-8B latencija pokretanja pala je s 525 na 258 sekundi (~51%), uz do 2× brže skaliranje s kraja na kraj.