🤖 24 AI
🟢 🤖 모델 2026년 4월 22일 수요일 · 2 분 읽기

xAI 음성-텍스트 변환 API 정식 출시: 25개 언어 지원으로 베타 졸업

에디토리얼 일러스트: 마이크와 음파 스트림이 Grok API를 통해 25개 언어의 전사본으로 변환된다

왜 중요한가

xAI가 음성-텍스트 변환(STT) API가 베타 단계에서 정식 출시(GA) 단계로 전환되었다고 발표했습니다. 이 서비스는 25개 언어를 지원하고 배치 및 스트리밍 모드를 제공하며 대기자 명단 없이 이용 가능합니다. 이전에 GA로 발표된 Grok Voice Agent API와 함께 완전한 음성 스택을 완성합니다.

xAI 음성-텍스트 변환 API, 베타에서 정식 출시로

xAI는 2026년 4월 릴리스 노트에서 음성-텍스트 변환(STT) API가 베타 단계를 마치고 정식 출시(GA)로 전환되었다고 발표했습니다. 이 서비스는 오디오를 텍스트로 전사하고 25개 언어를 지원하며 배치 및 스트리밍 두 가지 작동 모드를 제공합니다.

xAI STT API가 정확히 무엇을 제공합니까?

문서의 핵심 메시지는 「배치 및 스트리밍 모드로 25개 언어의 오디오를 텍스트로 전사」합니다. 배치 모드는 완전한 오디오 파일 처리에 사용됩니다. 회의 녹음, 팟캐스트 에피소드, 인터뷰 등 전체 파일을 API에 전송하면 전사가 완료되면 결과가 반환됩니다.

스트리밍 모드는 실시간으로 오디오를 처리합니다. 사용자가 말하는 동안 부분 전사본이 낮은 지연 시간으로 반환되며, 이는 음성 어시스턴트, 라이브 자막 또는 앱 내 받아쓰기에 필수적입니다.

25개 언어 지원으로 xAI는 OpenAI Whisper 및 구글 클라우드 음성-텍스트 변환 서비스와 경쟁하는 위치에 서게 됩니다. 다만 공개된 릴리스 노트에는 정확한 언어 목록이 명시되어 있지 않습니다.

GA 상태는 개발자에게 무엇을 의미합니까?

베타에서 GA로의 전환은 몇 가지 실질적인 의미를 지닙니다. 첫째, API를 대기자 명단 없이 이용할 수 있습니다. API 키를 보유한 xAI 사용자라면 누구나 즉시 요청을 시작할 수 있습니다. 둘째, GA는 일반적으로 더 안정적인 SLA 보장과 API 계약에서 주요 변경 사항의 가능성 감소를 의미합니다.

셋째, GA는 xAI가 프로덕션 워크로드를 지원할 준비가 되었음을 나타내며, 이는 상업적 음성 제품을 구축하는 개발자에게 중요합니다. 분당 오디오 처리의 구체적인 가격은 공개된 릴리스 노트에 자세히 나와 있지 않으므로 개발자는 xAI 콘솔에서 현재 가격을 확인해야 합니다.

Grok 및 Voice Agent와의 통합

Grok Voice Agent API는 2025년 12월부터 GA 상태였으므로, xAI는 이제 완전한 음성 스택의 루프를 닫았습니다. 입력을 위한 STT(음성 인식), 추론을 위한 Grok LLM, 출력을 위한 Voice Agent(음성 합성 및 대화 관리)입니다.

이러한 통합은 음성 제품을 구축하는 개발자가 한 팀의 STT(예: Whisper), 다른 팀의 LLM, 또 다른 팀의 TTS를 혼합하는 대신 단일 제공업체를 사용할 수 있음을 의미합니다. 장점은 통합된 지연 시간 경험, 단일 SDK, 통합 청구입니다.

xAI에게 이는 전략적으로 중요합니다. OpenAI의 Realtime API 같은 경쟁 제품이 이미 통합 음성 스택을 제공하고 있기 때문입니다. STT GA 출시는 이 격차를 해소하고 xAI를 음성 어시스턴트 프로덕션 배포의 진지한 옵션으로 자리매김합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.