xAI Speech-to-Text API izlazi iz beta faze: generalna dostupnost za 25 jezika
Zašto je bitno
xAI je objavio da njegov Speech-to-Text (STT) API prelazi iz beta faze u generalnu dostupnost. Servis podržava 25 jezika, nudi batch i streaming modove te je dostupan bez waitliste — dovršavajući glasovni stack uz ranije GA objavljen Grok Voice Agent.
xAI Speech-to-Text API izlazi iz bete u generalnu dostupnost
xAI je u travnju 2026. u svojim release notes objavio da njegov Speech-to-Text (STT) API napušta beta fazu i prelazi u generalnu dostupnost (GA — General Availability). Servis transkribira audio u tekst, podržava 25 jezika te nudi oba radna moda — batch i streaming.
Što točno nudi xAI STT API?
Ključna poruka iz dokumentacije: „Transcribe audio to text in 25 languages with batch and streaming modes.” Batch mod namijenjen je obradi cijelih audio datoteka — snimaka sastanaka, podcast epizoda, intervjua — gdje se cijela datoteka pošalje API-ju i rezultat se vrati kad transkripcija završi.
Streaming mod, s druge strane, obrađuje audio u realnom vremenu. Kako korisnik govori, parcijalni transkripti vraćaju se s niskom latencijom, što je ključno za glasovne asistente, live subtitling ili diktiranje u aplikacijama.
Podrška za 25 jezika stavlja xAI u konkurentsku zonu s OpenAI Whisperom i Google Cloud Speech-to-Text servisom, iako točna lista jezika nije navedena u objavljenim release notes.
Što GA status znači za developere?
Prelazak iz bete u GA nosi nekoliko praktičnih posljedica. Prvo, API je dostupan bez waitliste — svaki xAI korisnik s API ključem može odmah početi slati zahtjeve. Drugo, GA obično znači stabilnije SLA garancije i manje probability breaking changeova u API ugovoru.
Treće, GA signalizira da je xAI spreman poduprijeti produkcijske workloade, što je bitno za developere koji grade komercijalne glasovne proizvode. Konkretne cijene po minuti audio obrade nisu detaljno razrađene u objavljenim release notes, pa developeri moraju provjeriti trenutni pricing u xAI konzoli.
Kako se uklapa s Grokom i Voice Agentom?
Grok Voice Agent API već je u GA od prosinca 2025., što znači da je xAI sada zatvorio krug kompletnog glasovnog stacka — STT za ulaz (prepoznavanje govora), Grok LLM za rezoniranje i Voice Agent za izlaz (sinteza govora i upravljanje razgovorom).
Takva integracija znači da developeri koji grade glasovne proizvode mogu koristiti jednog pružatelja umjesto mixanja STT-a jednog tima (npr. Whisper), LLM-a drugog tima i TTS-a trećeg. Prednost je jedinstvena latencija, jedinstveni SDK i jedinstveno naplaćivanje.
Za xAI, ovo je strateški važno jer konkurentna ponuda poput OpenAI-jevog Realtime API-ja već nudi integriran glasovni stack. STT GA zatvara jaz i čini xAI ozbiljnom opcijom za produkciju glasovnih asistenata.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate
Apple predstavio MANZANO — unificirani multimodalni model koji balansira razumijevanje i generiranje slika
Google objavio GA gemini-embedding-2: prvi multimodalni embedding model s 5 modaliteta u istom prostoru