어떤 모드가 지원됩니까?

전체 오디오 파일을 한 번에 처리하는 배치 모드와 라이브 오디오 소스에서 실시간 전사를 위한 스트리밍 모드입니다.

xAI는 어떤 시장 부문을 타겟으로 합니까?

텍스트에 Grok API를 이미 사용하고 있으며 이제 xAI 생태계를 벗어나지 않고 완전한 오디오 파이프라인 — 전사, Grok을 통한 추론, 음성 합성 — 이 필요한 개발자입니다.

STT는 3월에 출시된 TTS와 어떤 관계입니까?

함께 완전한 오디오 스택을 형성합니다 — STT는 음성을 Grok이 처리하는 텍스트로 변환하고, TTS는 응답을 자연스러운 음성으로 반환합니다. 이를 통해 xAI는 순수한 언어 도메인에서 멀티모달 어시스턴트 서비스로 확장됩니다.

xAI 음성-텍스트 변환 API 정식 출시: 25개 언어, 배치 및 스트리밍 지원

xAI는 음성-텍스트 변환(STT) API가 베타 버전에서 정식 출시로 이동했음을 발표했습니다. 이 발표는 2026년 4월 docs.x.ai의 서비스 릴리스 노트에 포함되어 있습니다. 발표에는 가격 세부 정보나 아키텍처 기술 사양이 포함되어 있지 않지만, 명확한 한 걸음을 나타냅니다 — 일론의 AI 회사는 오디오 제품 라인을 완성하고 기존 ASR(자동 음성 인식) 플랫폼과 직접 경쟁에 진입합니다.

STT가 제공하는 것

릴리스 노트는 두 가지 작동 모드와 언어 적용 범위를 나타냅니다:

25개 언어 지원으로 음성을 텍스트로 전사
배치 모드로 전체 오디오 파일 처리
스트리밍 모드로 연속 오디오 스트림에서 실시간 전사

배치 모드는 처리를 지연할 수 있는 시나리오에 일반적입니다 — 팟캐스트 전사, 비디오 파일, 콜 센터 녹음. 스트리밍 모드는 실시간 애플리케이션에 필요합니다 — 라이브 자막, 음성 어시스턴트, 인터랙티브 대화 시스템.

배경: 오디오 스택 완성

한 달 전인 2026년 3월, xAI는 Grok을 사용하여 텍스트에서 자연스럽게 들리는 음성을 생성하는 텍스트-음성 변환(TTS) API의 정식 출시를 발표했습니다. 오늘의 STT 발표와 함께 xAI는 이제 완전한 오디오 파이프라인을 갖추게 되었습니다:

오디오 입력 → STT → 텍스트
텍스트 → Grok(추론 및 응답) → 텍스트
텍스트 → TTS → 오디오 출력

개발자들에게 이는 세 가지 다른 제공업체를 결합할 필요 없이 음성 어시스턴트, 일관된 다국어 전사 서비스, 실시간 대화 시스템을 구축할 수 있음을 의미합니다. 모든 구성 요소는 동일한 API 키와 동일한 결제 토큰을 통해 작동합니다.

시장 포지셔닝

ASR 시장은 이미 포화 상태입니다: OpenAI Whisper는 오픈 소스 세그먼트를 지배하고, Google Cloud Speech-to-Text는 엔터프라이즈 표준이며, Microsoft Azure Speech는 복잡한 다국어 사용 사례를 다루고, Deepgram과 AssemblyAI 같은 전문 플레이어들은 저지연 틈새를 차지하고 있습니다.

xAI는 독립적인 ASR 우위보다는 Grok과의 심층 통합 전략으로 시장에 진입합니다. 목표는 xAI STT가 모든 벤치마크에서 가장 정확한 것이 아니라, 텍스트에 이미 xAI를 사용하는 개발자들에게 완전한 멀티모달 애플리케이션으로 가는 가장 쉬운 경로가 되는 것입니다.

25개 언어라는 수치는 xAI를 OpenAI Whisper(약 100개 언어 지원)와 같은 순위에 놓지만, 125개 이상의 언어를 다루는 Google Speech-to-Text보다는 훨씬 적습니다. 그러나 영어, 주요 유럽 언어, 일부 주요 아시아 언어에 대해서는 가장 큰 글로벌 애플리케이션 베이스에 충분한 적용 범위입니다.

xAI 문서는 개발자들을 가격, 할당량, 특정 언어 데이터에 대한 추가 세부 정보를 위해 Speech to Text 문서로 안내합니다. 이 발표는 이전의 Grok 모델 3, 4, 4.20 발표에 이어 xAI 플랫폼의 2026년 지속적인 확장의 일부입니다.

xAI 음성-텍스트 변환 API 정식 출시: 25개 언어, 배치 및 스트리밍 지원

STT가 제공하는 것

배경: 오디오 스택 완성

시장 포지셔닝

출처

관련 뉴스