xAI Speech-to-Text API u općoj dostupnosti: 25 jezika, batch i streaming
xAI je objavio opću dostupnost Speech-to-Text API-ja koji podržava transkripciju govora u 25 jezika kroz batch i streaming modove. Objava dolazi mjesec dana nakon što je Text-to-Speech API postao opće dostupan u ožujku 2026. Time xAI zaokružuje audio stack uz Grok jezične modele i izlazi u direktnu konkurenciju s OpenAI Whisperom, Google Cloud Speechom i Azure Speechom.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
xAI je objavio da je Speech-to-Text (STT) API prešao iz bete u opću dostupnost. Objava je uključena u service release notes na docs.x.ai u travnju 2026. godine. Iako objava ne sadrži detalje o cijenama ni tehničkim specifikacijama arhitekture, signalizira jasan korak — Elonova AI tvrtka zaokružuje audio ponudu i izlazi u direktnu konkurenciju s etabliranim ASR (Automatic Speech Recognition) platformama.
Što STT donosi
Release notes navode dva operativna moda i jezičnu pokrivenost:
- 25 jezika podržanih za transkripciju govora u tekst
- Batch mod za obradu cijelih audio datoteka
- Streaming mod za transkripciju uživo iz kontinuiranog audio toka
Batch mod je tipičan za scenarije gdje se obrada može odgoditi — transkripcija podcasta, video datoteka, call centerskih snimki. Streaming mod je potreban za aplikacije u realnom vremenu — live captioning, voice asistenti, interaktivni dialog sustavi.
Kontekst: kompletiranje audio stacka
Prije mjesec dana, u ožujku 2026., xAI je objavio opću dostupnost Text-to-Speech (TTS) API-ja koji proizvodi prirodno zvučeći govor iz teksta koristeći Grok. Zajedno s današnjom STT objavom, xAI sada ima cijeli audio pipeline:
- Audio ulaz → STT → tekst
- Tekst → Grok (reasoning i odgovor) → tekst
- Tekst → TTS → audio izlaz
Za razvijatelje to znači da mogu izgraditi glasovne asistente, konzistentno multilingvalne transkripcijske usluge i real-time dialog sustave bez potrebe za kombiniranjem tri različita pružatelja. Sve komponente rade kroz isti API ključ i iste obračunske tokene.
Tržišna pozicija
Tržište ASR-a već je gusto: OpenAI Whisper dominira open-source segmentom, Google Cloud Speech-to-Text je standard u enterpriseu, Microsoft Azure Speech pokriva kompleksne multilingvalne use caseove, a specijalizirani igrači poput Deepgrama i AssemblyAI imaju low-latency niše.
xAI u to ulazi sa strategijom dubinske integracije uz Grok umjesto samostalne ASR prednosti. Cilj nije da xAI STT bude najtočniji po svim benchmarcima, nego da bude najlakši put do kompletne multimodal aplikacije za developere koji već koriste xAI za tekst.
Broj od 25 jezika postavlja xAI u isti rang s OpenAI Whisperom (koji podržava ~100 jezika), ali je značajno manji od Googleovog Speech-to-Texta koji pokriva preko 125 jezika. Ipak, za engleski, glavne europske jezike i neke azijske glavne jezike, pokrivenost je dostatna za najveću globalnu aplikacijsku bazu.
xAI dokumentacija upućuje razvijatelje na Speech to Text docs za daljnje detalje oko cijena, kvota i specifičnih jezičnih podataka. Objava je dio kontinuirane ekspanzije xAI platforme tijekom 2026. godine nakon ranijih objava Grok modela 3, 4 i 4.20.
Česta pitanja
- Koji modovi su podržani?
- Batch mod za obradu cijelih audio datoteka odjednom i streaming mod za transkripciju u realnom vremenu iz live audio izvora.
- Koji tržišni segment xAI targetira?
- Developere koji već koriste Grok API za tekst i sada trebaju cijeli audio pipeline — transkripciju, reasoning s Grokom i sintezu glasa natrag — bez izlaska iz xAI ekosustava.
- Kako se STT odnosi prema TTS izdanom u ožujku?
- Zajedno čine kompletni audio stack — STT pretvara govor u tekst koji Grok procesira, a TTS vraća odgovor kao prirodni glas. Time xAI izlazi iz čistog jezičnog domenom u multimodalni asistent servis.
Povezane vijesti
arXiv:2605.22681: CUSP benchmark pokazuje da frontier modeli ne mogu pouzdano predviđati znanstvene proboje
arXiv:2605.22337: Meta-Soft uvodi kompresiju KV cachea kroz composable meta-tokene i naučljive ortogonalne baze
arXiv:2605.22664: WorkstreamBench testira LLM agente na end-to-end spreadsheet zadacima u financijama i frontier modeli padaju