Koji je problem koji rješava nova SageMaker funkcija?

Deploy generativnog AI modela u produkciju zahtijeva izbor GPU tipa, broja instanci, batch size-a i optimizacijskih postavki. Testiranje svih kombinacija ručno traje tjednima. SageMaker AI sada automatizira proces i daje preporuke u satima umjesto tjednima.

Što je NVIDIA AIPerf i kako se koristi?

NVIDIA AIPerf je alat za mjerenje performansi AI modela koji generira sintetičke upite i mjeri latenciju, propusnost i trošak. SageMaker AI ga interno poziva kroz različite GPU konfiguracije — H100, A100, L4 — i automatski sprema rezultate u usporednu tablicu.

Po kojim kriterijima se preporuke rangiraju?

Preporuke se mogu rangirati po tri kriterija: ukupnom trošku po inference pozivu, latenciji od prvog do zadnjeg tokena i maksimalnoj propusnosti zahtjeva po sekundi. Timovi mogu birati konfiguraciju koja odgovara njihovom prioritetu — jeftinije za batch obradu, brže za interaktivne aplikacije.

SageMaker: automatske GenAI inference preporuke

Kraj tjedana ručnog testiranja

Amazon SageMaker AI dobio je novu funkciju koja automatski benchmarka generativne AI modele kroz različite GPU konfiguracije. Umjesto da timovi ručno testiraju kombinacije H100, A100, L4 i drugih GPU tipova s različitim batch size-ovima i optimizacijama, SageMaker sada generira validnu listu deployment konfiguracija u satima.

Funkcija koristi NVIDIA AIPerf alat u pozadini. AIPerf generira sintetičke upite koji simuliraju stvarno opterećenje, mjeri latenciju od prvog do zadnjeg tokena te izračunava propusnost zahtjeva po sekundi. SageMaker pokreće testove paralelno kroz više konfiguracija i skuplja rezultate u jednu usporednu tablicu.

Tri kriterija rangiranja

Rezultati se mogu rangirati po tri različita kriterija, ovisno o poslovnom prioritetu. Prvi kriterij je ukupni trošak po inference pozivu — izračunat kombinacijom cijene instanci i prosječnog vremena generiranja odgovora. Ovo je važno za aplikacije s velikim volumenom upita.

Drugi kriterij je latencija. Interaktivne aplikacije poput chatbotova zahtijevaju brz time-to-first-token i konzistentnu brzinu generiranja. Treći kriterij je maksimalna propusnost — koliko paralelnih zahtjeva konfiguracija može opslužiti prije nego degradira. Korisno za aplikacije koje procesiraju batch upite ili podatke.

Praktična korist za MLOps timove

Proces deploya u produkciju obično izgleda ovako: tim izabere model, napravi prvu procjenu hardvera, pokrene load test, otkrije probleme s performansama, promijeni konfiguraciju, ponovi test. Ta se petlja ponavlja tjednima. Nova SageMaker funkcija eliminira iteracije jer pokriva većinu relevantnih konfiguracija u jednom prolazu.

Važan detalj je da SageMaker ne vraća samo jednu “najbolju” konfiguraciju, već cijelu listu s rangiranjem. Timovi mogu pregledati trade-off između troška i latencije i donijeti informirane odluke. Primjerice, konfiguracija koja je 20 posto jeftinija ali 30 posto sporija može biti prihvatljiva za određene aplikacije.

Integracija s postojećim workflowom

Funkcija je integrirana u postojeći SageMaker AI workflow. Korisnik prosljeđuje model i ograničenja — primjerice “maksimalna cijena 0.01 USD po pozivu” ili “latencija ispod 500ms” — i SageMaker vraća konfiguracije koje zadovoljavaju kriterije. Rezultati uključuju endpoint konfiguracije spremne za direktno pokretanje.

Ovo je konkretna automatizacija MLOps odluka koja je do sada zahtijevala iskusnog inženjera s dubinskim znanjem GPU arhitektura. Za tvrtke bez takvih stručnjaka funkcija demokratizira pristup optimalnim deployment konfiguracijama.

AWS SageMaker automatski benchmarka generativne AI modele i daje optimalne konfiguracije za inference

Kraj tjedana ručnog testiranja

Tri kriterija rangiranja

Praktična korist za MLOps timove

Integracija s postojećim workflowom

Izvori

Povezane vijesti