AWS SageMaker, 생성형 AI 모델을 자동으로 벤치마크하고 최적의 추론 구성 제공
왜 중요한가
Amazon SageMaker AI가 이제 NVIDIA AIPerf 도구를 사용하여 다양한 GPU 구성에서 생성형 AI 모델을 자동으로 벤치마크하여 수 주간의 수동 테스트를 없애고 비용, 지연 시간, 처리량 기준으로 순위가 매겨진 권장 구성을 제공합니다.
수 주간의 수동 테스트 종료
Amazon SageMaker AI가 다양한 GPU 구성에서 생성형 AI 모델을 자동으로 벤치마크하는 새로운 기능을 갖추었습니다. 팀이 H100, A100, L4 등의 GPU 유형을 다양한 배치 크기와 최적화 설정과 수동으로 조합해 테스트하는 대신, SageMaker는 이제 수 시간 내에 유효한 배포 구성 목록을 생성합니다.
이 기능은 백그라운드에서 NVIDIA AIPerf 도구를 사용합니다. AIPerf는 실제 부하를 시뮬레이션하는 합성 쿼리를 생성하고, 첫 번째 토큰부터 마지막 토큰까지의 지연 시간을 측정하며, 초당 요청 처리량을 계산합니다. SageMaker는 여러 구성에 걸쳐 병렬로 테스트를 실행하고 결과를 하나의 비교 표로 수집합니다.
세 가지 순위 기준
결과는 비즈니스 우선순위에 따라 세 가지 다른 기준으로 순위를 매길 수 있습니다. 첫 번째 기준은 인스턴스 비용과 평균 응답 생성 시간의 조합으로 계산된 추론 호출당 총 비용입니다. 이는 쿼리 볼륨이 많은 애플리케이션에 중요합니다.
두 번째 기준은 지연 시간입니다. 챗봇과 같은 인터랙티브 애플리케이션은 빠른 첫 번째 토큰 시간과 일관된 생성 속도가 필요합니다. 세 번째 기준은 최대 처리량——구성이 성능 저하 전에 얼마나 많은 병렬 요청을 처리할 수 있는지입니다. 배치 쿼리나 데이터를 처리하는 애플리케이션에 유용합니다.
MLOps 팀에 대한 실질적인 이점
프로덕션 배포 프로세스는 보통 이렇게 진행됩니다. 팀이 모델을 선택하고 하드웨어에 대한 초기 추정을 하고 부하 테스트를 실행하고 성능 문제를 발견하고 구성을 변경하고 테스트를 반복합니다. 이 루프가 수 주 동안 반복됩니다. 새로운 SageMaker 기능은 단일 패스에서 대부분의 관련 구성을 커버하기 때문에 이러한 반복을 제거합니다.
중요한 세부 사항은 SageMaker가 단일의 “최선” 구성만 반환하지 않고 순위가 매겨진 전체 목록을 반환한다는 것입니다. 팀은 비용과 지연 시간 간의 트레이드오프를 검토하고 정보에 입각한 결정을 내릴 수 있습니다. 예를 들어 20% 저렴하지만 30% 느린 구성이 특정 애플리케이션에는 허용될 수 있습니다.
기존 워크플로와의 통합
이 기능은 기존 SageMaker AI 워크플로에 통합되어 있습니다. 사용자는 모델과 제약 조건——예를 들어 “호출당 최대 비용 0.01달러” 또는 “지연 시간 500ms 미만”——을 전달하면 SageMaker는 기준을 충족하는 구성을 반환합니다. 결과에는 직접 시작할 수 있는 엔드포인트 구성이 포함됩니다.
이것은 이전까지 GPU 아키텍처에 대한 깊은 지식을 가진 경험 많은 엔지니어가 필요했던 MLOps 결정의 구체적인 자동화입니다. 그런 전문가가 없는 기업에게 이 기능은 최적의 배포 구성에 대한 접근을 민주화합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.