xAI语音转文字API正式发布:支持25种语言、批处理和流式模式
为什么重要
xAI宣布语音转文字API正式发布,支持25种语言的批处理和流式两种转录模式。此次发布距离2026年3月文字转语音API正式发布仅一个月。至此,xAI完成了与Grok语言模型配套的完整音频栈,并直接进入与OpenAI Whisper、Google Cloud Speech和Azure Speech的竞争。
xAI宣布语音转文字(STT)API已从测试版转为正式发布。此次发布包含在2026年4月docs.x.ai的服务发布说明中。尽管发布未包含定价细节或架构技术规格,但它标志着明确的一步——埃隆的AI公司完善了音频产品线,直接进入与成熟ASR(自动语音识别)平台的竞争。
STT带来什么
发布说明列出了两种操作模式和语言覆盖范围:
- 支持25种语言进行语音到文字转录
- 批处理模式用于处理完整音频文件
- 流式模式用于从连续音频流实时转录
批处理模式适用于可以延迟处理的场景——播客转录、视频文件、呼叫中心录音。流式模式用于实时应用——现场字幕、语音助手、交互式对话系统。
背景:完善音频栈
一个月前,2026年3月,xAI宣布文字转语音(TTS)API正式发布,使用Grok生成自然语音。结合今天的STT发布,xAI现在拥有完整的音频流程:
- 音频输入 → STT → 文本
- 文本 → Grok(推理和响应)→ 文本
- 文本 → TTS → 音频输出
对于开发者来说,这意味着他们可以构建语音助手、一致的多语言转录服务和实时对话系统,无需组合三个不同的提供商。所有组件通过相同的API密钥和相同的计费令牌运行。
市场定位
ASR市场已很拥挤:OpenAI Whisper主导开源细分,Google Cloud Speech-to-Text是企业标准,Microsoft Azure Speech覆盖复杂的多语言用例,而Deepgram和AssemblyAI等专业玩家占据低延迟细分市场。
xAI凭借与Grok深度集成的策略进入市场,而非独立的ASR优势。目标不是xAI STT在所有基准测试中最准确,而是对于已使用xAI进行文本处理的开发者来说,它是构建完整多模态应用的最便捷路径。
25种语言的数量将xAI置于与OpenAI Whisper(支持约100种语言)同等水平,但明显少于Google语音转文字覆盖的125种以上语言。然而,对于英语、主要欧洲语言和一些亚洲主要语言,覆盖范围对于最大的全球应用群体已足够。
xAI文档将开发者引导至语音转文字文档,以获取定价、配额和具体语言数据的更多详情。此次发布是xAI平台在2026年持续扩张的一部分,此前已发布Grok 3、4和4.20模型。
本文由人工智能基于一手来源生成。