AWSとNVIDIA Parakeet-TDTが1分あたり0.00005ドルで25言語の文字起こしを実現
なぜ重要か
AWSの機械学習ブログでは、NVIDIAのオープンソースモデルParakeet-TDT-0.6B-v3をクラウドで低コストの多言語音声文字起こしに使用する方法が解説されています。このモデルは自動検出付きで25のヨーロッパ言語をカバーし、AWS Batchとの組み合わせでSpotインスタンスでは1分あたりわずか0.00005ドル、オンデマンドg6.xlarge GPUでは0.00011ドルで処理できます。スケールゼロポリシーと、バッファリングされたストリーミングによる10時間以上の音声録音の処理にも対応しています。
25言語の自動検出機能を持つオープンソースモデル
AWSの機械学習チームは、NVIDIAのオープンソース自動音声認識モデルParakeet-TDT-0.6B-v3を使用した、大規模な多言語音声文字起こしのための詳細なレシピアーキテクチャを公開しました。6億パラメータのこのモデルはオープンライセンスで公開され、クロアチア語やセルビア語からウクライナ語やフィンランド語まで、25のヨーロッパ言語を直接カバーし、自動言語検出が組み込まれています。これは、ユーザーが各録音の言語を事前にラベル付けする必要がなく、モデルが自動的にソースを認識して文字起こしを返すことを意味します。
多文化コンテンツを処理する企業——メディアアーカイブ、コンタクトセンター、ウェビナー、ポッドキャストなど——にとって、言語の事前分類が不要になることは、データ入力環境での作業量が大幅に削減されることを意味します。もう1つの利点は、このモデルが単一のコンシューマGPUで実行できるほど小さいことで、大型トランスフォーマーモデルではコストがかかりすぎる大規模バッチ処理に適しています。
AWS Batchとスケールゼロの経済性
AWSが推奨するアーキテクチャは、Parakeet-TDTをg6.xlarge GPUインスタンス上のAWS Batchサービスと組み合わせます。このアーキテクチャの重要な点はスケールゼロポリシーです。キューにジョブがない場合、クラスターはゼロのGPUインスタンスに自動的にスケールダウンし、ユーザーはストレージ以外の費用を支払いません。新しい音声ファイルがキューに入ると、Batchが自動的にインスタンスを起動し、処理を実行し、文字起こし結果をS3バケットに返します。
経済性は説得力があります。オンデマンドモードでは音声1分あたり0.00011ドル、Spotインスタンスでは0.00005ドルです。具体的には、Spotモードでの1時間の音声は約0.3セントで、商業的な文字起こしAPIより一桁安い金額です。ブログ記事は、Spotインスタンスとスケールゼロアプローチの組み合わせが、特に大型アーカイブを散発的に処理する組織の固定コストを大幅に削減することを明確に強調しています。
長い録音のバッファリングストリーミングと処理速度
音声モデルの技術的な課題の1つは、コンテキスト長の制限により、長い録音を手動でセグメントに分割する必要があることです。AWSはこのレシピでバッファリングストリーミングメカニズムを実装し、手動カットなしで10時間以上の音声録音を処理できるようにしています。モデルはスライディングウィンドウで音声を処理し、論理的な境界でトランスクリプトを結合します。これはポッドキャスト、長い講義、カンファレンス録音にとって重要です。
速度については、入力音声1分あたりの平均処理時間は0.49秒で、単一GPUで実時間のおよそ120倍の速さです。つまり、Parakeet-TDTは10時間の音声をおよそ5分で処理し、Spotモードでの費用は約0.03ドルです。
この記事はAIにより一次情報源から生成されました。