什么是Gemini 3.1 Flash TTS？

这是Google的新型文本转语音模型，能够以70多种语言将文本转化为自然语音，通过音频标签进行高级语音控制，并支持多说话人对话。

Gemini Flash TTS中的音频标签是什么？

音频标签是直接嵌入文本中的自然语言命令，控制模型如何朗读内容——从语调和语速到情感基调以及句子间的停顿。

该模型可在Google AI Studio、Vertex AI和Google Vids平台上使用，并配备SynthID水印，自动标记AI生成的音频。

Google推出了Gemini 3.1 Flash TTS——新一代文本转语音模型，将高质量语音与对声音特征的精确控制相结合。该模型在Artificial Analysis TTS排行榜上获得1,211的Elo评分，在竞争对手中跻身顶尖行列。

Gemini 3.1 Flash TTS最重要的创新是音频标签——能够将自然语言命令直接嵌入需要转化为语音的文本中。用户无需使用复杂的SSML（语音合成标记语言）标记或有限的预定义风格，而是可以用自然语言描述所需的发音方式。

例如，用户可以在文本中插入”以戏剧性的停顿在结尾处轻声细语”这样的指令——模型将忠实执行。这支持多达6个亮度区间的声音渐变，为创作者提供了以前需要专业演员和录音棚才能实现的控制水平。

支持70多种语言，Gemini 3.1 Flash TTS在语言覆盖范围方面超越了大多数竞争对手。该模型原生支持多说话人对话——文本中不同角色可以获得不同声音，无需为每个说话人单独调用API。

对于构建全球产品的开发团队——从虚拟助手到教育平台——这意味着使用一个模型而非为每个市场单独集成。语音质量在各语言间保持一致，而这传统上一直是TTS系统面临的挑战。

Google在模型中集成了SynthID水印技术——一种对AI生成音频进行不可感知标记的技术。每个生成的音频内容都携带一个数字标记，允许事后检测该内容是由人工智能创建的，同时不影响音质。

这是对日益增长的深度伪造音频内容和语音欺诈担忧的回应。SynthID不阻止内容生成，但能够验证真实性——这对平台、监管机构和记者来说是至关重要的工具。

该模型可在Google AI Studio上进行实验，在Vertex AI上用于生产环境，以及在Google Vids上用于创建带有AI旁白的视频内容。