AWS:SageMaker에 100개 이상의 상세 추론 지표와 CloudWatch Insights 대시보드 추가
Amazon SageMaker는 AWS의 머신러닝 플랫폼으로, 이제 생성형 AI 추론에 대한 100개 이상의 상세 지표를 CloudWatch에 전송하며 새로운 Insights 대시보드를 통해 접근할 수 있습니다. 대시보드는 토큰 수준 지연 시간(TTFT, 토큰 간 지연), KV 캐시 추적, 콜드 스타트 진단을 표시하며 PromQL 엔드포인트를 통해 Grafana 및 Datadog과 호환됩니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Amazon은 SageMaker——AWS의 관리형 머신러닝 플랫폼——이 생성형 AI 추론에 대한 100개 이상의 상세 지표를 CloudWatch(AWS의 모니터링 서비스)에 직접 전송한다고 발표했습니다. 지표와 함께 Performance, Capacity, Reliability 세 개의 탭을 갖춘 새로운 SageMaker Insights 대시보드도 제공됩니다. 목표는 기존에 커스텀 계측이 필요했던 인사이트를 팀에게 제공하는 것입니다.
대시보드가 측정하는 것
추론은 훈련된 모델이 실시간으로 요청에 응답하는 단계이므로 지연 시간이 핵심 지표입니다. 새 대시보드는 토큰 수준 지연 시간——첫 번째 토큰까지의 시간(TTFT, time-to-first-token)과 토큰 간 지연 시간——과 함께 KV 캐시(모델이 생성 가속화에 사용하는 키-값 메모리) 추적, Honeycomb 플릿 시각화, 콜드 스타트 진단을 추적합니다. 단일 모델 및 다중 모델(추론 컴포넌트) 엔드포인트 모두 지원합니다.
이전 방법과의 차이점
이전에는 이 수준의 인사이트를 얻으려면 팀이 직접 계측을 구축하거나 외부 도구에 의존해야 했습니다. SageMaker는 이제 OpenTelemetry 형식으로 지표를 제공하므로 PromQL 호환 엔드포인트를 통해 Grafana 및 Datadog에 연결되며 사전 준비된 Grafana 템플릿도 활용할 수 있습니다. 청구는 CloudWatch OpenTelemetry 표준 가격인 GB당 0.50 USD입니다.
실무에서의 의미
더 상세한 지표는 엔지니어들이 수동 계측 없이도 느린 콜드 스타트나 KV 캐시 과부하 같은 병목을 진단하는 데 도움이 됩니다. 프로덕션 환경에서 대형 언어 모델을 서빙하는 조직에게 TTFT와 토큰 간 지연 시간 측정은 사용자 경험과 비용에 직결되므로, 표준화된 대시보드는 장애 진단 시간을 단축시킵니다.
자주 묻는 질문
- SageMaker는 이제 몇 개의 지표를 전송합니까?
- SageMaker는 CloudWatch에 100개 이상의 상세 추론 지표를 전송합니다. 토큰 수준 지연 시간, KV 캐시 추적, 콜드 스타트 진단을 포함합니다.
- Insights 대시보드는 어떤 도구를 지원합니까?
- CloudWatch에서 직접 작동하며, PromQL 호환 엔드포인트를 통해 Grafana 및 Datadog과 통합되고 사전 제작된 Grafana 템플릿이 제공됩니다.
- 비용은 얼마입니까?
- CloudWatch OpenTelemetry 표준 가격인 GB당 0.50 USD로 청구됩니다.