AWS Nova 증류를 활용한 비디오 시맨틱 검색:95% 비용 절감, 추론 속도 2배 향상
AWS는 모델 증류가 대형 Nova Premier 모델의 지능을 비디오 검색 라우팅을 위한 소형 Nova Micro로 전달하는 방법을 시연했습니다. 결과는 추론 비용 95% 절감, 레이턴시 50% 감소(1741ms 대신 833ms), LLM-as-judge 평가에서 품질 유지(5점 만점에 4점)입니다. 전체 훈련에는 Nova Premier에서 생성된 10,000개의 합성 샘플이 사용되었습니다.