SageMaker: 100+ inference metrika na CloudWatchu

Amazon SageMaker je AWS-ova platforma za strojno učenje koja sada emitira više od 100 detaljnih metrika za generativni AI inference u CloudWatch, dostupnih kroz novu Insights nadzornu ploču. Ploča prikazuje token-level latenciju (TTFT, latenciju među tokenima), praćenje KV cachea i dijagnostiku hladnog starta, a kompatibilna je s Grafanom i Datadogom preko PromQL endpointa.

Amazon je objavio da SageMaker — AWS-ova upravljana platforma za strojno učenje — sada emitira više od 100 detaljnih metrika za inference generativnog AI-ja izravno u CloudWatch, AWS-ov servis za nadzor. Uz metrike dolazi i nova SageMaker Insights nadzorna ploča s karticama Performance, Capacity i Reliability. Cilj je timovima dati uvid koji je dosad zahtijevao prilagođenu instrumentaciju.

Što ploča mjeri

Inference je faza u kojoj istrenirani model odgovara na upite u stvarnom vremenu, pa je latencija ključna metrika. Nova ploča prati token-level latenciju — vrijeme do prvog tokena (TTFT, time-to-first-token) i latenciju među tokenima — uz praćenje KV cachea (memorije ključeva i vrijednosti koju model koristi za ubrzanje generiranja), Honeycomb vizualizaciju flote i dijagnostiku hladnog starta. Ploča pokriva i jednomodelne i višemodelne (inference component) endpointe.

Po čemu se razlikuje od ranijeg pristupa

Dosad su timovi za ovakvu razinu uvida morali sami graditi instrumentaciju ili se oslanjati na vanjske alate. SageMaker sada isporučuje metrike u OpenTelemetry formatu, pa se preko PromQL-kompatibilnog endpointa povezuje s Grafanom i Datadogom uz unaprijed pripremljene Grafana predloške. Naplata ide po standardnoj cijeni CloudWatch OpenTelemetryja od 0,50 USD po gigabajtu.

Što to znači za praksu

Detaljnije metrike pomažu inženjerima dijagnosticirati uska grla poput sporog hladnog starta ili prepunjenog KV cachea bez ručne instrumentacije. Za organizacije koje serviraju velike jezične modele u produkciji, mjerenje TTFT-a i latencije među tokenima izravno utječe na korisničko iskustvo i trošak, pa standardizirani dashboard skraćuje vrijeme do dijagnoze kvara.

Česta pitanja

Koliko metrika SageMaker sada emitira?

SageMaker emitira više od 100 detaljnih inference metrika u CloudWatch, uključujući token-level latenciju, praćenje KV cachea i dijagnostiku hladnog starta.

Koje alate Insights ploča podržava?

Ploča radi izravno u CloudWatchu, a preko PromQL-kompatibilnog endpointa integrira se s Grafanom i Datadogom uz gotove predloške.

Koliko košta?

Naplaćuje se po standardnoj cijeni CloudWatch OpenTelemetryja od 0,50 USD po gigabajtu.

AWS: SageMaker dobiva preko 100 detaljnih inference metrika i Insights nadzornu ploču na CloudWatchu

Što ploča mjeri

Po čemu se razlikuje od ranijeg pristupa

Što to znači za praksu

Česta pitanja

Izvori

Povezane vijesti