どの言語がサポートされていますか？

Parakeet-TDT-0.6B-v3は25のヨーロッパ言語をサポートし、自動言語検出が可能なため、入力録音の言語を事前に指定する必要はありません。

1分間の文字起こしは実際いくらかかりますか？

AWS g6.xlarge インスタンスでは、オンデマンドモードで音声1分あたり0.00011ドル、Spotインスタンスでは0.00005ドルかかります。これは商業的な文字起こしサービスよりも一桁安い金額です。

このモデルは長い音声録音を処理できますか？

はい。バッファリングされたストリーミングアプローチにより、AWS Batchは10時間以上の音声録音を処理でき、入力音声1分あたりの平均処理時間は0.49秒です。

AWS Parakeet-TDT：25言語を0.00005ドル/分で文字起こし

25言語の自動検出機能を持つオープンソースモデル

AWSの機械学習チームは、NVIDIAのオープンソース自動音声認識モデルParakeet-TDT-0.6B-v3を使用した、大規模な多言語音声文字起こしのための詳細なレシピアーキテクチャを公開しました。6億パラメータのこのモデルはオープンライセンスで公開され、クロアチア語やセルビア語からウクライナ語やフィンランド語まで、25のヨーロッパ言語を直接カバーし、自動言語検出が組み込まれています。これは、ユーザーが各録音の言語を事前にラベル付けする必要がなく、モデルが自動的にソースを認識して文字起こしを返すことを意味します。

多文化コンテンツを処理する企業——メディアアーカイブ、コンタクトセンター、ウェビナー、ポッドキャストなど——にとって、言語の事前分類が不要になることは、データ入力環境での作業量が大幅に削減されることを意味します。もう1つの利点は、このモデルが単一のコンシューマGPUで実行できるほど小さいことで、大型トランスフォーマーモデルではコストがかかりすぎる大規模バッチ処理に適しています。

AWS Batchとスケールゼロの経済性

AWSが推奨するアーキテクチャは、Parakeet-TDTをg6.xlarge GPUインスタンス上のAWS Batchサービスと組み合わせます。このアーキテクチャの重要な点はスケールゼロポリシーです。キューにジョブがない場合、クラスターはゼロのGPUインスタンスに自動的にスケールダウンし、ユーザーはストレージ以外の費用を支払いません。新しい音声ファイルがキューに入ると、Batchが自動的にインスタンスを起動し、処理を実行し、文字起こし結果をS3バケットに返します。

経済性は説得力があります。オンデマンドモードでは音声1分あたり0.00011ドル、Spotインスタンスでは0.00005ドルです。具体的には、Spotモードでの1時間の音声は約0.3セントで、商業的な文字起こしAPIより一桁安い金額です。ブログ記事は、Spotインスタンスとスケールゼロアプローチの組み合わせが、特に大型アーカイブを散発的に処理する組織の固定コストを大幅に削減することを明確に強調しています。

長い録音のバッファリングストリーミングと処理速度

音声モデルの技術的な課題の1つは、コンテキスト長の制限により、長い録音を手動でセグメントに分割する必要があることです。AWSはこのレシピでバッファリングストリーミングメカニズムを実装し、手動カットなしで10時間以上の音声録音を処理できるようにしています。モデルはスライディングウィンドウで音声を処理し、論理的な境界でトランスクリプトを結合します。これはポッドキャスト、長い講義、カンファレンス録音にとって重要です。

速度については、入力音声1分あたりの平均処理時間は0.49秒で、単一GPUで実時間のおよそ120倍の速さです。つまり、Parakeet-TDTは10時間の音声をおよそ5分で処理し、Spotモードでの費用は約0.03ドルです。

AWSとNVIDIA Parakeet-TDTが1分あたり0.00005ドルで25言語の文字起こしを実現

25言語の自動検出機能を持つオープンソースモデル

AWS Batchとスケールゼロの経済性

長い録音のバッファリングストリーミングと処理速度

出典

関連ニュース