どのモードがサポートされていますか？

完全な音声ファイルを一度に処理するバッチモードと、ライブオーディオソースからのリアルタイム転写のためのストリーミングモードです。

xAIはどの市場セグメントをターゲットにしていますか？

テキストにGrok APIをすでに使用していて、完全なオーディオパイプライン——転写、Grokによる推論、音声合成——をxAIエコシステムから出ることなく必要とする開発者です。

STTは3月にリリースされたTTSとどのような関係ですか？

両者を合わせて完全なオーディオスタックを形成します——STTは音声をGrokが処理するテキストに変換し、TTSは回答を自然な音声として返します。これによりxAIは純粋な言語ドメインからマルチモーダルアシスタントサービスへと拡大します。

xAI音声テキスト変換API一般公開：25言語、バッチおよびストリーミング対応

xAIは音声テキスト変換（STT）APIがベータ版から一般公開に移行したことを発表しました。この発表は2026年4月のdocs.x.aiのサービスリリースノートに含まれています。発表には価格の詳細やアーキテクチャの技術仕様は含まれていませんが、明確な一歩を示しています——イーロンのAI会社はオーディオ製品ラインを完成させ、確立されたASR（自動音声認識）プラットフォームとの直接競争に参入します。

STTが提供するもの

リリースノートは二つの操作モードと言語カバレッジを示しています：

25言語対応の音声テキスト変換
バッチモードによる完全な音声ファイルの処理
ストリーミングモードによる連続オーディオストリームからのリアルタイム転写

バッチモードは処理を遅らせることができるシナリオに典型的です——ポッドキャスト転写、動画ファイル、コールセンター録音。ストリーミングモードはリアルタイムアプリケーションに必要です——ライブキャプション、音声アシスタント、インタラクティブダイアログシステム。

コンテキスト：オーディオスタックの完成

一ヶ月前の2026年3月、xAIはGrokを使用して自然に聞こえる音声をテキストから生成するテキスト音声変換（TTS）APIの一般公開を発表しました。今日のSTT発表と合わせて、xAIは完全なオーディオパイプラインを持つことになります：

オーディオ入力 → STT → テキスト
テキスト → Grok（推論と回答）→ テキスト
テキスト → TTS → オーディオ出力

開発者にとってこれは、三つの異なるプロバイダーを組み合わせることなく、音声アシスタント、一貫したマルチリンガル転写サービス、リアルタイムダイアログシステムを構築できることを意味します。すべてのコンポーネントは同じAPIキーと同じ課金トークンを通じて動作します。

市場ポジション

ASR市場はすでに混雑しています：OpenAI WhisperはオープンソースセグメントをリードしFし、Google Cloud Speech-to-Textはエンタープライズの標準で、Microsoft Azure Speechは複雑なマルチリンガルユースケースをカバーし、DeepgramやAssemblyAIなどの専門プレーヤーは低レイテンシのニッチを占めています。

xAIは独立したASRの優位性ではなく、Grokとの深い統合という戦略でこれに参入します。目標はxAI STTがすべてのベンチマークで最も正確であることではなく、テキストにすでにxAIを使用している開発者にとって完全なマルチモーダルアプリケーションへの最も簡単な道であることです。

25言語という数は、xAIをOpenAI Whisper（約100言語をサポート）と同じランクに置きますが、125言語以上をカバーするGoogleのSpeech-to-Textよりは大幅に少ない数です。しかし英語、主要ヨーロッパ言語、一部のアジアの主要言語について、最大のグローバルアプリケーションベースには十分なカバレッジです。

xAIドキュメントは開発者を価格、クォータ、特定の言語データに関する詳細のためにSpeech to Textドキュメントに案内します。この発表は、以前のGrokモデル3、4、4.20の発表に続くxAIプラットフォームの2026年継続的拡張の一部です。

xAI音声テキスト変換API一般公開：25言語、バッチおよびストリーミング対応

STTが提供するもの

コンテキスト：オーディオスタックの完成

市場ポジション

出典

関連ニュース