Was ist Gemini 3.1 Flash TTS?

Es ist Googles neues Text-to-Speech-Modell, das Text in mehr als 70 Sprachen in natürliche Sprache umwandelt, mit erweiterter Stimmsteuerung durch Audio-Tags und Unterstützung für Mehrsprecherdialoge.

Was sind Audio-Tags in Gemini Flash TTS?

Audio-Tags sind Natural-Language-Befehle, die direkt in den Text eingebettet werden und steuern, wie das Modell Inhalte wiedergibt — von Intonation und Tempo bis hin zu emotionalem Ton und Pausen zwischen Sätzen.

Wo ist Gemini 3.1 Flash TTS verfügbar?

Das Modell ist auf Google AI Studio, Vertex AI und Google Vids verfügbar, mit SynthID-Wasserzeichen, das KI-generierte Audioinhalte automatisch kennzeichnet.

Google: Gemini 3.1 Flash TTS bringt ausdrucksstarke KI-Sprache in mehr als 70 Sprachen

Google hat Gemini 3.1 Flash TTS vorgestellt — ein Text-to-Speech-Modell der neuen Generation, das hohe Sprachqualität mit präziser Kontrolle über Stimmmerkmale verbindet. Das Modell erreicht einen Elo-Wert von 1.211 auf der Artificial Analysis TTS-Rangliste und positioniert sich damit an der Spitze unter den Wettbewerbslösungen.

Was sind Audio-Tags und warum verändern sie die Spielregeln?

Die bedeutendste Innovation von Gemini 3.1 Flash TTS sind Audio-Tags — die Möglichkeit, Natural-Language-Befehle direkt in den Text einzubetten, der in Sprache umgewandelt wird. Anstatt komplexe SSML-Tags (Speech Synthesis Markup Language) oder begrenzte vordefinierte Stile zu verwenden, können Nutzer die gewünschte Aussprache in natürlicher Sprache beschreiben.

Beispielsweise kann ein Nutzer eine Anweisung wie „sprich den folgenden Satz flüsternd mit einer dramatischen Pause am Ende” in den Text einfügen — und das Modell setzt dies um. Dies ermöglicht bis zu 6 Luminanzzonen für die Stimmabstufung und gibt Kreativen ein Maß an Kontrolle, das bisher einen professionellen Sprecher und ein Tonstudio erforderte.

Wie groß ist die Sprachunterstützung?

Mit Unterstützung für mehr als 70 Sprachen übertrifft Gemini 3.1 Flash TTS die meisten Wettbewerbslösungen in der Sprachabdeckung. Das Modell unterstützt nativ Mehrsprecherdialoge — die Fähigkeit, verschiedenen Figuren in einem Text unterschiedliche Stimmen zuzuweisen, ohne für jeden Sprecher separate API-Aufrufe zu benötigen.

Für Entwicklungsteams, die globale Produkte bauen — von virtuellen Assistenten bis zu Bildungsplattformen —, bedeutet dies ein Modell statt separater Integrationen für jeden Markt. Die Sprachqualität ist sprachübergreifend konsistent, was traditionell eine Herausforderung für TTS-Systeme darstellte.

Wie schützt SynthID vor Missbrauch?

Google hat SynthID-Wasserzeichen in das Modell integriert — eine Technologie zur unmerklichen Kennzeichnung KI-generierter Audioinhalte. Jeder generierte Audioinhalt trägt eine digitale Markierung, die eine nachträgliche Erkennung ermöglicht, dass der Inhalt von einer künstlichen Intelligenz erstellt wurde, ohne die Audioqualität zu beeinträchtigen.

Dies ist eine Antwort auf wachsende Bedenken hinsichtlich Deepfake-Audioinhalten und Stimmenbetrug. SynthID verhindert zwar nicht die Generierung, ermöglicht aber die Authentizitätsüberprüfung — ein wichtiges Werkzeug für Plattformen, Regulierungsbehörden und Journalisten.

Das Modell ist auf Google AI Studio zum Experimentieren, auf Vertex AI für den Produktionseinsatz und auf Google Vids zur Erstellung von Videoinhalten mit einem KI-Erzähler verfügbar.

Google: Gemini 3.1 Flash TTS bringt ausdrucksstarke KI-Sprache in mehr als 70 Sprachen

Was sind Audio-Tags und warum verändern sie die Spielregeln?

Wie groß ist die Sprachunterstützung?

Wie schützt SynthID vor Missbrauch?

Quellen

Verwandte Nachrichten