🟢 🤖 模型 发布于: · 2 分钟阅读 ·

xAI语音转文字API正式发布:支持25种语言全面开放

编辑插图:麦克风和声波流通过Grok API转换为25种语言的文字转录

xAI宣布其语音转文字(STT)API从测试阶段进入正式发布阶段。该服务支持25种语言,提供批处理和流式两种模式,无需等待名单即可使用——与此前正式发布的Grok语音智能体API共同构成完整的语音技术栈。

🤖

本文由人工智能基于一手来源生成。

xAI于2026年4月在其发布说明中宣布,其语音转文字(STT)API已退出测试阶段,进入正式发布(GA)阶段。该服务可将音频转录为文本,支持25种语言,并提供批处理和流式两种工作模式。

xAI STT API具体提供什么?

文档中的核心信息是:「以批处理和流式模式将音频转录为25种语言的文本。」批处理模式用于处理完整音频文件——会议录音、播客集、采访记录——将整个文件发送给API,转录完成后返回结果。

流式模式则实时处理音频。用户说话时,部分转录内容以低延迟返回,这对语音助手、实时字幕或应用内听写至关重要。

支持25种语言使xAI在竞争层面与OpenAI Whisper和谷歌云语音转文字服务比肩,尽管已发布的发布说明中未列出确切的语言列表。

正式发布状态对开发者意味着什么?

从测试版升级至正式版带来几项实际变化。首先,API无需等待名单即可使用——任何持有API密钥的xAI用户都可以立即开始发送请求。其次,正式版通常意味着更稳定的SLA保证和API协议中重大变更的可能性降低。

第三,正式版表明xAI已准备好支持生产级工作负载,这对开发商业语音产品的开发者至关重要。已发布的发布说明中未详细说明每分钟音频处理的具体定价,开发者需在xAI控制台中查阅当前定价。

与Grok和语音智能体的整合

Grok语音智能体API自2025年12月起已正式发布,这意味着xAI现在已形成完整的语音技术闭环——STT负责输入(语音识别),Grok LLM负责推理,语音智能体负责输出(语音合成和对话管理)。

这种整合意味着构建语音产品的开发者可以使用单一服务商,而无需混合使用不同团队的STT(如Whisper)、LLM和TTS。优势在于统一的延迟体验、统一的SDK和统一的计费。

对xAI而言,这具有重要战略意义,因为OpenAI的Realtime API等竞争产品已经提供集成语音技术栈。STT正式发布填补了这一缺口,使xAI成为语音助手生产部署的有力选择。

常见问题

什么是语音转文字(STT),它与文字转语音有何不同?
STT(语音转文字)将语音转换为文本,是语音助手、转录和听写的基础。TTS(文字转语音)则相反——将文本转换为合成语音。
批处理模式和流式模式有什么区别?
批处理模式一次性处理整个音频文件并返回转录结果,适合录音、播客和会议录音。流式模式在用户说话时实时返回转录内容,具有低延迟特性,适用于实时语音助手和听写应用。
xAI STT如何融入Grok生态系统?
Grok语音智能体API自2025年12月起已正式发布。STT的正式发布使xAI拥有了完整的语音技术栈:STT负责输入,Grok负责推理,TTS/语音智能体负责输出——全部来自同一服务商。