🤖 24 AI
🟡 🏥 U praksi petak, 17. travnja 2026. · 2 min čitanja

xAI Speech-to-Text API u općoj dostupnosti: 25 jezika, batch i streaming

Zašto je bitno

xAI je objavio opću dostupnost Speech-to-Text API-ja koji podržava transkripciju govora u 25 jezika kroz batch i streaming modove. Objava dolazi mjesec dana nakon što je Text-to-Speech API postao opće dostupan u ožujku 2026. Time xAI zaokružuje audio stack uz Grok jezične modele i izlazi u direktnu konkurenciju s OpenAI Whisperom, Google Cloud Speechom i Azure Speechom.

xAI je objavio da je Speech-to-Text (STT) API prešao iz bete u opću dostupnost. Objava je uključena u service release notes na docs.x.ai u travnju 2026. godine. Iako objava ne sadrži detalje o cijenama ni tehničkim specifikacijama arhitekture, signalizira jasan korak — Elonova AI tvrtka zaokružuje audio ponudu i izlazi u direktnu konkurenciju s etabliranim ASR (Automatic Speech Recognition) platformama.

Što STT donosi

Release notes navode dva operativna moda i jezičnu pokrivenost:

  • 25 jezika podržanih za transkripciju govora u tekst
  • Batch mod za obradu cijelih audio datoteka
  • Streaming mod za transkripciju uživo iz kontinuiranog audio toka

Batch mod je tipičan za scenarije gdje se obrada može odgoditi — transkripcija podcasta, video datoteka, call centerskih snimki. Streaming mod je potreban za aplikacije u realnom vremenu — live captioning, voice asistenti, interaktivni dialog sustavi.

Kontekst: kompletiranje audio stacka

Prije mjesec dana, u ožujku 2026., xAI je objavio opću dostupnost Text-to-Speech (TTS) API-ja koji proizvodi prirodno zvučeći govor iz teksta koristeći Grok. Zajedno s današnjom STT objavom, xAI sada ima cijeli audio pipeline:

  1. Audio ulaz → STT → tekst
  2. Tekst → Grok (reasoning i odgovor) → tekst
  3. Tekst → TTS → audio izlaz

Za razvijatelje to znači da mogu izgraditi glasovne asistente, konzistentno multilingvalne transkripcijske usluge i real-time dialog sustave bez potrebe za kombiniranjem tri različita pružatelja. Sve komponente rade kroz isti API ključ i iste obračunske tokene.

Tržišna pozicija

Tržište ASR-a već je gusto: OpenAI Whisper dominira open-source segmentom, Google Cloud Speech-to-Text je standard u enterpriseu, Microsoft Azure Speech pokriva kompleksne multilingvalne use caseove, a specijalizirani igrači poput Deepgrama i AssemblyAI imaju low-latency niše.

xAI u to ulazi sa strategijom dubinske integracije uz Grok umjesto samostalne ASR prednosti. Cilj nije da xAI STT bude najtočniji po svim benchmarcima, nego da bude najlakši put do kompletne multimodal aplikacije za developere koji već koriste xAI za tekst.

Broj od 25 jezika postavlja xAI u isti rang s OpenAI Whisperom (koji podržava ~100 jezika), ali je značajno manji od Googleovog Speech-to-Texta koji pokriva preko 125 jezika. Ipak, za engleski, glavne europske jezike i neke azijske glavne jezike, pokrivenost je dostatna za najveću globalnu aplikacijsku bazu.

xAI dokumentacija upućuje razvijatelje na Speech to Text docs za daljnje detalje oko cijena, kvota i specifičnih jezičnih podataka. Objava je dio kontinuirane ekspanzije xAI platforme tijekom 2026. godine nakon ranijih objava Grok modela 3, 4 i 4.20.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.