支持哪些模式？

批处理模式用于一次性处理完整音频文件，流式模式用于从实时音频源进行实时转录。

xAI瞄准哪个市场细分？

已经在使用Grok API进行文本处理、现在需要完整音频流程的开发者——无需离开xAI生态系统即可完成转录、Grok推理和语音合成。

两者共同构成完整的音频栈——STT将语音转换为Grok处理的文本，TTS将响应以自然语音返回。xAI由此从纯语言领域扩展到多模态助手服务。

xAI宣布语音转文字（STT）API已从测试版转为正式发布。此次发布包含在2026年4月docs.x.ai的服务发布说明中。尽管发布未包含定价细节或架构技术规格，但它标志着明确的一步——埃隆的AI公司完善了音频产品线，直接进入与成熟ASR（自动语音识别）平台的竞争。

发布说明列出了两种操作模式和语言覆盖范围：

批处理模式适用于可以延迟处理的场景——播客转录、视频文件、呼叫中心录音。流式模式用于实时应用——现场字幕、语音助手、交互式对话系统。

一个月前，2026年3月，xAI宣布文字转语音（TTS）API正式发布，使用Grok生成自然语音。结合今天的STT发布，xAI现在拥有完整的音频流程：

对于开发者来说，这意味着他们可以构建语音助手、一致的多语言转录服务和实时对话系统，无需组合三个不同的提供商。所有组件通过相同的API密钥和相同的计费令牌运行。

ASR市场已很拥挤：OpenAI Whisper主导开源细分，Google Cloud Speech-to-Text是企业标准，Microsoft Azure Speech覆盖复杂的多语言用例，而Deepgram和AssemblyAI等专业玩家占据低延迟细分市场。

xAI凭借与Grok深度集成的策略进入市场，而非独立的ASR优势。目标不是xAI STT在所有基准测试中最准确，而是对于已使用xAI进行文本处理的开发者来说，它是构建完整多模态应用的最便捷路径。

25种语言的数量将xAI置于与OpenAI Whisper（支持约100种语言）同等水平，但明显少于Google语音转文字覆盖的125种以上语言。然而，对于英语、主要欧洲语言和一些亚洲主要语言，覆盖范围对于最大的全球应用群体已足够。

xAI文档将开发者引导至语音转文字文档，以获取定价、配额和具体语言数据的更多详情。此次发布是xAI平台在2026年持续扩张的一部分，此前已发布Grok 3、4和4.20模型。