Google: Gemini 3.1 Flash TTS donosi ekspresivni AI govor na više od 70 jezika
Zašto je bitno
Google je lansirao Gemini 3.1 Flash TTS, novi text-to-speech model koji podržava više od 70 jezika i postiže Elo rezultat od 1.211 na ljestvici Artificial Analysis. Ključna inovacija su audio tagovi — ugrađivanje natural language komandi direktno u tekst za preciznu kontrolu glasa, intonacije i emocija. Model je dostupan na Google AI Studio, Vertex AI i Google Vids, uz SynthID watermarking za detekciju AI-generiranog zvuka.
Google je predstavio Gemini 3.1 Flash TTS — novu generaciju text-to-speech modela koji kombinira visoku kvalitetu govora s preciznom kontrolom nad glasovnim karakteristikama. Model postiže Elo rezultat od 1.211 na ljestvici Artificial Analysis TTS, pozicionirajući se na vrh među konkurentskim rješenjima.
Što su audio tagovi i zašto mijenjaju pravila igre?
Najznačajnija inovacija Gemini 3.1 Flash TTS-a su audio tagovi — mogućnost ugrađivanja natural language komandi direktno u tekst koji se pretvara u govor. Umjesto korištenja složenih SSML (Speech Synthesis Markup Language) oznaka ili ograničenih unaprijed definiranih stilova, korisnici mogu opisati željeni način izgovora prirodnim jezikom.
Primjerice, korisnik može u tekst umetnuti instrukciju poput “izgovori sljedeću rečenicu šapatom s dramatičnom pauzom na kraju” — i model će to izvršiti. Ovo omogućuje do 6 luminancijskih zona za gradaciju glasa, dajući kreativcima razinu kontrole koja je dosad zahtijevala profesionalnog glumca i audio studij.
Koliki je doseg jezične podrške?
S podrškom za više od 70 jezika, Gemini 3.1 Flash TTS nadilazi većinu konkurentskih rješenja u jezičnoj pokrivenosti. Model nativno podržava višegovorničke dijaloge — mogućnost da različiti likovi u tekstu dobiju različite glasove bez potrebe za zasebnim API pozivima za svakog govornika.
Za razvojne timove koji grade globalne proizvode — od virtualnih asistenata do edukativnih platformi — ovo znači jedan model umjesto zasebnih integracija za svako tržište. Kvaliteta govora konzistentna je kroz jezike, što je tradicionalno bio izazov za TTS sustave.
Kako SynthID štiti od zlouporabe?
Google je u model ugradio SynthID watermarking — tehnologiju za imperceptibilno označavanje AI-generiranog zvuka. Svaki generirani audio sadržaj nosi digitalnu oznaku koja omogućuje naknadnu detekciju da je sadržaj stvoren umjetnom inteligencijom, bez utjecaja na kvalitetu zvuka.
Ovo je odgovor na rastuću zabrinutost oko deepfake audio sadržaja i glasovnih prijevara. SynthID ne sprječava generiranje, ali omogućuje verifikaciju autentičnosti — ključan alat za platforme, regulatore i novinare.
Model je dostupan na Google AI Studio za eksperimentiranje, Vertex AI za produkcijsku upotrebu i Google Vids za kreiranje video sadržaja s AI naratorom.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja
DeepSeek objavio V4-Pro i V4-Flash: dva open-source modela s milijun tokena konteksta i 80,6 na SWE Verified
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate