🤖 24 AI
🟢 🤖 モデル 2026年4月22日水曜日 · 3 分で読めます

xAI音声テキスト変換APIが一般提供開始:25言語に対応しベータを卒業

エディトリアルイラスト:マイクと音波のストリームがGrok APIを通じて25言語の文字起こしに変換される

なぜ重要か

xAIは音声テキスト変換(STT)APIがベータ段階を経て一般提供(GA)に移行したと発表しました。このサービスは25言語をサポートし、バッチモードとストリーミングモードの両方を提供し、ウェイトリストなしで利用可能です。先行してGAとなったGrok Voice Agent APIと合わせ、音声スタック全体が完成しました。

xAI音声テキスト変換APIがベータから一般提供へ

xAIは2026年4月のリリースノートにて、音声テキスト変換(STT)APIがベータ段階を終え、一般提供(GA)に移行したと発表しました。このサービスは音声をテキストに文字起こしし、25言語をサポートし、バッチモードとストリーミングモードの両方を提供します。

xAI STT APIが提供するものは?

ドキュメントの核心となるメッセージは「バッチモードとストリーミングモードで25言語の音声をテキストに文字起こしする」というものです。バッチモードは完全な音声ファイルの処理向けです。会議録音、ポッドキャストのエピソード、インタビューなど、ファイル全体をAPIに送信し、文字起こしが完了すると結果が返されます。

ストリーミングモードはリアルタイムで音声を処理します。ユーザーが話すにつれて、部分的な文字起こしが低レイテンシで返されます。これは音声アシスタント、ライブ字幕、アプリ内ディクテーションに不可欠です。

25言語のサポートにより、xAIはOpenAI WhisperやGoogle Cloud音声テキスト変換サービスと競合する位置に立ちます。ただし、公開されたリリースノートには正確な言語リストは記載されていません。

GA状態は開発者にとって何を意味するのか

ベータからGAへの移行にはいくつかの実際的な意味があります。まず、APIがウェイトリストなしで利用可能になります。APIキーを持つxAIユーザーは誰でもすぐにリクエストを送信できます。次に、GAは通常、より安定したSLA保証とAPIコントラクトの破壊的変更の可能性低減を意味します。

第三に、GAはxAIが本番ワークロードをサポートする準備ができていることを示します。これは商業的な音声製品を構築する開発者にとって重要です。音声処理の1分あたりの具体的な価格は公開されたリリースノートには詳細が記載されていないため、開発者はxAIコンソールで現在の料金を確認する必要があります。

GrokとVoice Agentとの統合

Grok Voice Agent APIは2025年12月からGAとなっており、xAIは完全な音声スタックのループを閉じたことになります。入力のSTT(音声認識)、推論のGrok LLM、出力のVoice Agent(音声合成と会話管理)がすべて揃いました。

この統合により、音声製品を構築する開発者はあるチームのSTT(Whisperなど)、別チームのLLM、さらに別チームのTTSを組み合わせる代わりに、単一のプロバイダーを使用できます。利点は一元化されたレイテンシ、統一SDK、一括請求です。

xAIにとって、これは戦略的に重要です。OpenAIのRealtime APIなどの競合製品がすでに統合音声スタックを提供しているためです。STTのGAはそのギャップを埋め、xAIを音声アシスタントの本番デプロイメントにおける本格的な選択肢として位置づけます。

🤖

この記事はAIにより一次情報源から生成されました。