🤖 24 AI
🟢 🤖 模型 2026年4月22日星期三 · 2 分钟阅读

xAI语音转文字API正式发布:支持25种语言全面开放

编辑插图:麦克风和声波流通过Grok API转换为25种语言的文字转录

为什么重要

xAI宣布其语音转文字(STT)API从测试阶段进入正式发布阶段。该服务支持25种语言,提供批处理和流式两种模式,无需等待名单即可使用——与此前正式发布的Grok语音智能体API共同构成完整的语音技术栈。

xAI语音转文字API从测试版进入正式发布阶段

xAI于2026年4月在其发布说明中宣布,其语音转文字(STT)API已退出测试阶段,进入正式发布(GA)阶段。该服务可将音频转录为文本,支持25种语言,并提供批处理和流式两种工作模式。

xAI STT API具体提供什么?

文档中的核心信息是:「以批处理和流式模式将音频转录为25种语言的文本。」批处理模式用于处理完整音频文件——会议录音、播客集、采访记录——将整个文件发送给API,转录完成后返回结果。

流式模式则实时处理音频。用户说话时,部分转录内容以低延迟返回,这对语音助手、实时字幕或应用内听写至关重要。

支持25种语言使xAI在竞争层面与OpenAI Whisper和谷歌云语音转文字服务比肩,尽管已发布的发布说明中未列出确切的语言列表。

正式发布状态对开发者意味着什么?

从测试版升级至正式版带来几项实际变化。首先,API无需等待名单即可使用——任何持有API密钥的xAI用户都可以立即开始发送请求。其次,正式版通常意味着更稳定的SLA保证和API协议中重大变更的可能性降低。

第三,正式版表明xAI已准备好支持生产级工作负载,这对开发商业语音产品的开发者至关重要。已发布的发布说明中未详细说明每分钟音频处理的具体定价,开发者需在xAI控制台中查阅当前定价。

与Grok和语音智能体的整合

Grok语音智能体API自2025年12月起已正式发布,这意味着xAI现在已形成完整的语音技术闭环——STT负责输入(语音识别),Grok LLM负责推理,语音智能体负责输出(语音合成和对话管理)。

这种整合意味着构建语音产品的开发者可以使用单一服务商,而无需混合使用不同团队的STT(如Whisper)、LLM和TTS。优势在于统一的延迟体验、统一的SDK和统一的计费。

对xAI而言,这具有重要战略意义,因为OpenAI的Realtime API等竞争产品已经提供集成语音技术栈。STT正式发布填补了这一缺口,使xAI成为语音助手生产部署的有力选择。

🤖

本文由人工智能基于一手来源生成。