🤖 24 AI
🟡 🏥 U praksi četvrtak, 23. travnja 2026. · 2 min čitanja

AWS SageMaker automatski benchmarka generativne AI modele i daje optimalne konfiguracije za inference

Editorial illustration: AI u praksi — praksa

Zašto je bitno

Amazon SageMaker AI sada automatski benchmarka generativne AI modele kroz različite GPU konfiguracije koristeći NVIDIA AIPerf alat, eliminirajući tjedne manualnog testiranja i dajući preporuke rangirane po trošku, latenciji ili propusnosti.

Kraj tjedana ručnog testiranja

Amazon SageMaker AI dobio je novu funkciju koja automatski benchmarka generativne AI modele kroz različite GPU konfiguracije. Umjesto da timovi ručno testiraju kombinacije H100, A100, L4 i drugih GPU tipova s različitim batch size-ovima i optimizacijama, SageMaker sada generira validnu listu deployment konfiguracija u satima.

Funkcija koristi NVIDIA AIPerf alat u pozadini. AIPerf generira sintetičke upite koji simuliraju stvarno opterećenje, mjeri latenciju od prvog do zadnjeg tokena te izračunava propusnost zahtjeva po sekundi. SageMaker pokreće testove paralelno kroz više konfiguracija i skuplja rezultate u jednu usporednu tablicu.

Tri kriterija rangiranja

Rezultati se mogu rangirati po tri različita kriterija, ovisno o poslovnom prioritetu. Prvi kriterij je ukupni trošak po inference pozivu — izračunat kombinacijom cijene instanci i prosječnog vremena generiranja odgovora. Ovo je važno za aplikacije s velikim volumenom upita.

Drugi kriterij je latencija. Interaktivne aplikacije poput chatbotova zahtijevaju brz time-to-first-token i konzistentnu brzinu generiranja. Treći kriterij je maksimalna propusnost — koliko paralelnih zahtjeva konfiguracija može opslužiti prije nego degradira. Korisno za aplikacije koje procesiraju batch upite ili podatke.

Praktična korist za MLOps timove

Proces deploya u produkciju obično izgleda ovako: tim izabere model, napravi prvu procjenu hardvera, pokrene load test, otkrije probleme s performansama, promijeni konfiguraciju, ponovi test. Ta se petlja ponavlja tjednima. Nova SageMaker funkcija eliminira iteracije jer pokriva većinu relevantnih konfiguracija u jednom prolazu.

Važan detalj je da SageMaker ne vraća samo jednu “najbolju” konfiguraciju, već cijelu listu s rangiranjem. Timovi mogu pregledati trade-off između troška i latencije i donijeti informirane odluke. Primjerice, konfiguracija koja je 20 posto jeftinija ali 30 posto sporija može biti prihvatljiva za određene aplikacije.

Integracija s postojećim workflowom

Funkcija je integrirana u postojeći SageMaker AI workflow. Korisnik prosljeđuje model i ograničenja — primjerice “maksimalna cijena 0.01 USD po pozivu” ili “latencija ispod 500ms” — i SageMaker vraća konfiguracije koje zadovoljavaju kriterije. Rezultati uključuju endpoint konfiguracije spremne za direktno pokretanje.

Ovo je konkretna automatizacija MLOps odluka koja je do sada zahtijevala iskusnog inženjera s dubinskim znanjem GPU arhitektura. Za tvrtke bez takvih stručnjaka funkcija demokratizira pristup optimalnim deployment konfiguracijama.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.