🤖 24 AI
🟡 🏥 실무 2026년 4월 17일 금요일 · 2 분 읽기

xAI 음성-텍스트 변환 API 정식 출시: 25개 언어, 배치 및 스트리밍 지원

왜 중요한가

xAI는 25개 언어로 음성을 배치 및 스트리밍 모드로 텍스트 변환하는 음성-텍스트 변환 API의 정식 출시를 발표했습니다. 이 발표는 2026년 3월 텍스트-음성 변환 API가 정식 출시된 지 한 달 후입니다. 이로써 xAI는 Grok 언어 모델과 함께 완전한 오디오 스택을 완성하고 OpenAI Whisper, Google Cloud Speech, Azure Speech와 직접 경쟁에 돌입합니다.

xAI는 음성-텍스트 변환(STT) API가 베타 버전에서 정식 출시로 이동했음을 발표했습니다. 이 발표는 2026년 4월 docs.x.ai의 서비스 릴리스 노트에 포함되어 있습니다. 발표에는 가격 세부 정보나 아키텍처 기술 사양이 포함되어 있지 않지만, 명확한 한 걸음을 나타냅니다 — 일론의 AI 회사는 오디오 제품 라인을 완성하고 기존 ASR(자동 음성 인식) 플랫폼과 직접 경쟁에 진입합니다.

STT가 제공하는 것

릴리스 노트는 두 가지 작동 모드와 언어 적용 범위를 나타냅니다:

  • 25개 언어 지원으로 음성을 텍스트로 전사
  • 배치 모드로 전체 오디오 파일 처리
  • 스트리밍 모드로 연속 오디오 스트림에서 실시간 전사

배치 모드는 처리를 지연할 수 있는 시나리오에 일반적입니다 — 팟캐스트 전사, 비디오 파일, 콜 센터 녹음. 스트리밍 모드는 실시간 애플리케이션에 필요합니다 — 라이브 자막, 음성 어시스턴트, 인터랙티브 대화 시스템.

배경: 오디오 스택 완성

한 달 전인 2026년 3월, xAI는 Grok을 사용하여 텍스트에서 자연스럽게 들리는 음성을 생성하는 텍스트-음성 변환(TTS) API의 정식 출시를 발표했습니다. 오늘의 STT 발표와 함께 xAI는 이제 완전한 오디오 파이프라인을 갖추게 되었습니다:

  1. 오디오 입력 → STT → 텍스트
  2. 텍스트 → Grok(추론 및 응답) → 텍스트
  3. 텍스트 → TTS → 오디오 출력

개발자들에게 이는 세 가지 다른 제공업체를 결합할 필요 없이 음성 어시스턴트, 일관된 다국어 전사 서비스, 실시간 대화 시스템을 구축할 수 있음을 의미합니다. 모든 구성 요소는 동일한 API 키와 동일한 결제 토큰을 통해 작동합니다.

시장 포지셔닝

ASR 시장은 이미 포화 상태입니다: OpenAI Whisper는 오픈 소스 세그먼트를 지배하고, Google Cloud Speech-to-Text는 엔터프라이즈 표준이며, Microsoft Azure Speech는 복잡한 다국어 사용 사례를 다루고, Deepgram과 AssemblyAI 같은 전문 플레이어들은 저지연 틈새를 차지하고 있습니다.

xAI는 독립적인 ASR 우위보다는 Grok과의 심층 통합 전략으로 시장에 진입합니다. 목표는 xAI STT가 모든 벤치마크에서 가장 정확한 것이 아니라, 텍스트에 이미 xAI를 사용하는 개발자들에게 완전한 멀티모달 애플리케이션으로 가는 가장 쉬운 경로가 되는 것입니다.

25개 언어라는 수치는 xAI를 OpenAI Whisper(약 100개 언어 지원)와 같은 순위에 놓지만, 125개 이상의 언어를 다루는 Google Speech-to-Text보다는 훨씬 적습니다. 그러나 영어, 주요 유럽 언어, 일부 주요 아시아 언어에 대해서는 가장 큰 글로벌 애플리케이션 베이스에 충분한 적용 범위입니다.

xAI 문서는 개발자들을 가격, 할당량, 특정 언어 데이터에 대한 추가 세부 정보를 위해 Speech to Text 문서로 안내합니다. 이 발표는 이전의 Grok 모델 3, 4, 4.20 발표에 이어 xAI 플랫폼의 2026년 지속적인 확장의 일부입니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.