Što je Gemini 3.1 Flash TTS?

To je Googleov novi text-to-speech model koji pretvara tekst u prirodan govor na više od 70 jezika, s naprednom kontrolom glasa putem audio tagova i podrškom za višegovorničke dijaloge.

Što su audio tagovi u Gemini Flash TTS-u?

Audio tagovi su natural language komande ugrađene direktno u tekst koje kontroliraju kako model izgovara sadržaj — od intonacije i tempa do emocionalnog tona i pauza između rečenica.

Gdje je Gemini 3.1 Flash TTS dostupan?

Model je dostupan na Google AI Studio, Vertex AI i Google Vids platformama, uz SynthID watermarking koji automatski označava AI-generirani zvuk.

Google: Gemini 3.1 Flash TTS donosi ekspresivni AI govor na više od 70 jezika

Google je predstavio Gemini 3.1 Flash TTS — novu generaciju text-to-speech modela koji kombinira visoku kvalitetu govora s preciznom kontrolom nad glasovnim karakteristikama. Model postiže Elo rezultat od 1.211 na ljestvici Artificial Analysis TTS, pozicionirajući se na vrh među konkurentskim rješenjima.

Što su audio tagovi i zašto mijenjaju pravila igre?

Najznačajnija inovacija Gemini 3.1 Flash TTS-a su audio tagovi — mogućnost ugrađivanja natural language komandi direktno u tekst koji se pretvara u govor. Umjesto korištenja složenih SSML (Speech Synthesis Markup Language) oznaka ili ograničenih unaprijed definiranih stilova, korisnici mogu opisati željeni način izgovora prirodnim jezikom.

Primjerice, korisnik može u tekst umetnuti instrukciju poput “izgovori sljedeću rečenicu šapatom s dramatičnom pauzom na kraju” — i model će to izvršiti. Ovo omogućuje do 6 luminancijskih zona za gradaciju glasa, dajući kreativcima razinu kontrole koja je dosad zahtijevala profesionalnog glumca i audio studij.

Koliki je doseg jezične podrške?

S podrškom za više od 70 jezika, Gemini 3.1 Flash TTS nadilazi većinu konkurentskih rješenja u jezičnoj pokrivenosti. Model nativno podržava višegovorničke dijaloge — mogućnost da različiti likovi u tekstu dobiju različite glasove bez potrebe za zasebnim API pozivima za svakog govornika.

Za razvojne timove koji grade globalne proizvode — od virtualnih asistenata do edukativnih platformi — ovo znači jedan model umjesto zasebnih integracija za svako tržište. Kvaliteta govora konzistentna je kroz jezike, što je tradicionalno bio izazov za TTS sustave.

Kako SynthID štiti od zlouporabe?

Google je u model ugradio SynthID watermarking — tehnologiju za imperceptibilno označavanje AI-generiranog zvuka. Svaki generirani audio sadržaj nosi digitalnu oznaku koja omogućuje naknadnu detekciju da je sadržaj stvoren umjetnom inteligencijom, bez utjecaja na kvalitetu zvuka.

Ovo je odgovor na rastuću zabrinutost oko deepfake audio sadržaja i glasovnih prijevara. SynthID ne sprječava generiranje, ali omogućuje verifikaciju autentičnosti — ključan alat za platforme, regulatore i novinare.

Model je dostupan na Google AI Studio za eksperimentiranje, Vertex AI za produkcijsku upotrebu i Google Vids za kreiranje video sadržaja s AI naratorom.

Google: Gemini 3.1 Flash TTS donosi ekspresivni AI govor na više od 70 jezika

Što su audio tagovi i zašto mijenjaju pravila igre?

Koliki je doseg jezične podrške?

Kako SynthID štiti od zlouporabe?

Izvori

Povezane vijesti