🤖 24 AI
🟡 🤖 模型 2026年4月16日星期四 · 2 分钟阅读

Google:Gemini 3.1 Flash TTS为70多种语言带来富有表现力的AI语音

为什么重要

Google推出了Gemini 3.1 Flash TTS,这是一款支持70多种语言的新型文本转语音模型,在Artificial Analysis排行榜上获得1,211的Elo评分。核心创新是音频标签——将自然语言命令直接嵌入文本,以精确控制声音、语调和情感。该模型可在Google AI Studio、Vertex AI和Google Vids上使用,并配备SynthID水印用于检测AI生成的音频。

Google推出了Gemini 3.1 Flash TTS——新一代文本转语音模型,将高质量语音与对声音特征的精确控制相结合。该模型在Artificial Analysis TTS排行榜上获得1,211的Elo评分,在竞争对手中跻身顶尖行列。

什么是音频标签,为何改变了游戏规则?

Gemini 3.1 Flash TTS最重要的创新是音频标签——能够将自然语言命令直接嵌入需要转化为语音的文本中。用户无需使用复杂的SSML(语音合成标记语言)标记或有限的预定义风格,而是可以用自然语言描述所需的发音方式。

例如,用户可以在文本中插入”以戏剧性的停顿在结尾处轻声细语”这样的指令——模型将忠实执行。这支持多达6个亮度区间的声音渐变,为创作者提供了以前需要专业演员和录音棚才能实现的控制水平。

语言支持覆盖范围有多广?

支持70多种语言,Gemini 3.1 Flash TTS在语言覆盖范围方面超越了大多数竞争对手。该模型原生支持多说话人对话——文本中不同角色可以获得不同声音,无需为每个说话人单独调用API。

对于构建全球产品的开发团队——从虚拟助手到教育平台——这意味着使用一个模型而非为每个市场单独集成。语音质量在各语言间保持一致,而这传统上一直是TTS系统面临的挑战。

SynthID如何防止滥用?

Google在模型中集成了SynthID水印技术——一种对AI生成音频进行不可感知标记的技术。每个生成的音频内容都携带一个数字标记,允许事后检测该内容是由人工智能创建的,同时不影响音质。

这是对日益增长的深度伪造音频内容和语音欺诈担忧的回应。SynthID不阻止内容生成,但能够验证真实性——这对平台、监管机构和记者来说是至关重要的工具。

该模型可在Google AI Studio上进行实验,在Vertex AI上用于生产环境,以及在Google Vids上用于创建带有AI旁白的视频内容。

🤖

本文由人工智能基于一手来源生成。