AWS와 NVIDIA Parakeet-TDT, 분당 0.00005달러로 25개 언어 음성 전사 제공
왜 중요한가
AWS 머신러닝 블로그에서 NVIDIA의 오픈소스 모델 Parakeet-TDT-0.6B-v3를 클라우드에서 저비용 다국어 오디오 전사에 활용하는 방법을 설명했습니다. 이 모델은 자동 감지 기능과 함께 25개 유럽 언어를 지원하며, AWS Batch와 결합하면 Spot 인스턴스에서 오디오 1분 처리 비용이 단 0.00005달러, 온디맨드 g6.xlarge GPU에서는 0.00011달러입니다. 스케일 투 제로 정책과 버퍼링된 스트리밍을 통해 10시간 이상의 오디오 녹음도 처리할 수 있습니다.
25개 언어 자동 감지 오픈소스 모델
AWS 머신러닝 팀은 NVIDIA의 오픈소스 자동 음성 인식 모델 Parakeet-TDT-0.6B-v3를 사용한 대규모 다국어 오디오 전사를 위한 상세한 레시피 아키텍처를 공개했습니다. 6억 개의 파라미터를 가진 이 모델은 오픈 라이선스로 공개되며, 크로아티아어와 세르비아어부터 우크라이나어와 핀란드어까지 25개 유럽 언어를 직접 지원하고 자동 언어 감지가 내장되어 있습니다. 이는 사용자가 각 녹음의 언어를 사전에 레이블링할 필요 없이 모델이 자동으로 출처를 인식하고 전사를 반환함을 의미합니다.
다문화 콘텐츠를 처리하는 기업——미디어 아카이브, 컨택 센터, 웨비나, 팟캐스트——에게 언어 사전 분류가 불필요해지는 것은 데이터 입력 환경에서 작업량이 크게 줄어드는 것을 의미합니다. 또 다른 장점은 이 모델이 단일 소비자용 GPU에서 실행될 만큼 충분히 작아, 대형 트랜스포머 모델로는 비용이 너무 많이 드는 대규모 배치 처리에 적합하다는 것입니다.
AWS Batch와 스케일 투 제로 경제성
AWS가 권장하는 아키텍처는 Parakeet-TDT를 g6.xlarge GPU 인스턴스의 AWS Batch 서비스와 결합합니다. 이 아키텍처의 핵심은 스케일 투 제로 정책입니다. 큐에 작업이 없을 때 클러스터는 자동으로 제로 GPU 인스턴스로 축소되어 사용자는 스토리지 외에 비용을 지불하지 않습니다. 새로운 오디오 파일이 큐에 들어오면 Batch가 자동으로 인스턴스를 시작하고 처리를 실행하며 전사 결과를 S3 버킷에 반환합니다.
경제성은 설득력이 있습니다. 온디맨드 방식으로 오디오 1분당 0.00011달러, Spot 인스턴스로는 0.00005달러입니다. 구체적으로, Spot 모드에서 1시간 오디오 비용은 약 0.3센트로, 상업용 전사 API보다 한 자릿수 저렴합니다. 블로그 포스트는 Spot 인스턴스와 스케일 투 제로 방식의 조합이 특히 대형 아카이브를 간헐적으로 처리하는 조직의 고정 비용을 크게 줄인다고 명시적으로 강조합니다.
긴 녹음을 위한 버퍼링 스트리밍과 처리 속도
음성 모델의 기술적 과제 중 하나는 컨텍스트 길이 제한으로 인해 긴 녹음을 수동으로 세그먼트로 분할해야 한다는 것입니다. AWS는 이 레시피에서 버퍼링 스트리밍 메커니즘을 구현하여 수동 절단 없이 10시간 이상의 오디오 녹음을 처리할 수 있게 했습니다. 모델은 슬라이딩 윈도우 방식으로 오디오를 처리하고 논리적 경계에서 전사를 병합합니다. 이는 팟캐스트, 긴 강의, 컨퍼런스 녹음에 매우 중요합니다.
속도 면에서는 입력 오디오 1분당 평균 처리 시간이 0.49초로, 단일 GPU에서 실시간보다 약 120배 빠릅니다. 즉, Parakeet-TDT는 10시간 오디오를 약 5분 만에 처리하며 Spot 모드에서 비용은 약 0.03달러입니다. 미디어 회사, 법률 사무소, 전사 팀에게 이런 속도와 비용은 비즈니스 모델을 바꿉니다——전사는 더 이상 병목이 아니라 파이프라인의 거의 무료 단계가 됩니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.