🟡 🤖 模型 发布于: · 1 分钟阅读 ·

Google:Gemini 3.5 Live Translate — 实时70+语言语音互译

编辑插图:音频波形连接全球多种文字的对话气泡,实时翻译概念图

谷歌推出Gemini 3.5 Live Translate——支持70余种语言和2000多种语言组合的实时语音转语音翻译系统,保留原讲话者的语调,并通过SynthID水印保护合成音频。

🤖

本文由人工智能基于一手来源生成。

谷歌推出了Gemini 3.5 Live Translate——延迟仅数秒的语音转语音翻译系统(将口语直接翻译为另一种语言的口语)。与此前仅支持英语的解决方案不同,新版本在会议和通话中覆盖70余种语言和超过2000种语言组合。

什么是语音转语音翻译?

语音转语音翻译——与传统文本翻译不同——实时捕捉语音、进行翻译并立即向对话者传递翻译后的音频。Gemini 3.5 Live Translate同时保留原讲话者的语调、节奏和音调,使交流自然流畅,而非如旧方法那样机械生硬。

SynthID保护与可用性

所有生成的音频内容均带有SynthID水印——谷歌用于标记合成语音的标准,可进行事后真实性验证并防止深度伪造音频滥用。该系统通过Gemini Live API和Google AI Studio向开发者公开预览,Google Meet企业版正在进行私密预览。在Google翻译应用(Android和iOS)上的全球推广已在进行中。

应用规模

谷歌自家的Google翻译每月翻译超过一万亿个单词,揭示了支撑新系统的基础设施规模。使用Gemini Live API的出行平台Grab每月记录超过1000万次语音通话——这是可立即受益于实时多语言翻译的潜在用户群体。

面向开发平台的可用性意味着开发者现已可在自己的应用中集成翻译功能,同时等待更广泛的公开推广。

常见问题

Gemini 3.5 Live Translate支持多少种语言?
该系统支持70余种语言和超过2000种语言组合,相较于仅支持英语的早期版本是巨大飞跃。
翻译后的语音是否有防滥用保护?
有——谷歌对所有生成的音频内容添加SynthID水印,使合成语音可被识别,防止深度伪造音频的滥用。