Google:Gemini 3.1 Flash TTSが70以上の言語に表現力豊かなAI音声をもたらす
なぜ重要か
GoogleはGemini 3.1 Flash TTSを発表しました。70以上の言語に対応した新しいテキスト読み上げモデルで、Artificial Analysisのランキングで1,211のEloスコアを達成しています。主要なイノベーションはオーディオタグ——声、イントネーション、感情を精密に制御するために自然言語コマンドをテキストに直接埋め込む機能です。モデルはGoogle AI Studio、Vertex AI、Google Vidsで利用可能で、AI生成音声の検出のためのSynthIDウォーターマーキングを搭載しています。
GoogleはGemini 3.1 Flash TTSを発表しました——高品質な音声と声の特性への精密な制御を組み合わせた新世代のテキスト読み上げモデルです。モデルはArtificial Analysis TTSランキングで1,211のEloスコアを獲得し、競合ソリューションの中でトップに位置しています。
オーディオタグとは何で、なぜゲームチェンジャーなのですか?
Gemini 3.1 Flash TTSで最も重要なイノベーションはオーディオタグです——音声に変換されるテキストに自然言語コマンドを直接埋め込む機能です。複雑なSSML(音声合成マークアップ言語)タグや限定的な事前定義スタイルを使用する代わりに、ユーザーは希望する読み方を自然言語で説明できます。
例えば、ユーザーはテキストに「次の文を最後にドラマチックな間を置いてささやくように読んでください」という指示を挿入でき、モデルはそれを実行します。これにより、声のグラデーションのための最大6つの輝度ゾーンがサポートされ、クリエイターにこれまで専門の俳優と録音スタジオが必要だったレベルのコントロールを提供します。
言語サポートの範囲はどの程度ですか?
70以上の言語のサポートにより、Gemini 3.1 Flash TTSは言語カバレッジで競合ソリューションのほとんどを上回ります。モデルは複数話者ダイアログをネイティブにサポートします——テキスト内の異なるキャラクターがそれぞれ異なる声を持ち、各話者に個別のAPIコールが不要です。
仮想アシスタントから教育プラットフォームまで、グローバルな製品を構築する開発チームにとって、これは各市場への個別の統合ではなく1つのモデルを意味します。音声品質は言語間で一貫しており、これは従来TTSシステムにとって課題でした。
SynthIDはどのように悪用を防ぎますか?
GoogleはAI生成音声に認識不可能なマーキングを行う技術であるSynthIDウォーターマーキングをモデルに組み込みました。生成されたすべての音声コンテンツには、音質に影響を与えることなく、コンテンツが人工知能によって作成されたことを事後検出できるデジタルマークが付与されます。
これはディープフェイク音声コンテンツや音声詐欺に対する高まる懸念への対応です。SynthIDは生成を防止しませんが、真正性の検証を可能にします——プラットフォーム、規制当局、ジャーナリストにとって重要なツールです。
モデルはGoogle AI Studioで実験用に、Vertex AIで本番使用に、Google VidsでAIナレーターを使用したビデオコンテンツの作成に利用できます。
この記事はAIにより一次情報源から生成されました。