Google: Gemini 3.1 Flash TTS bringt ausdrucksstarke KI-Sprache in mehr als 70 Sprachen
Warum es wichtig ist
Google hat Gemini 3.1 Flash TTS lanciert, ein neues Text-to-Speech-Modell mit Unterstützung für mehr als 70 Sprachen und einem Elo-Wert von 1.211 auf der Artificial-Analysis-Rangliste. Die Schlüsselinnovation sind Audio-Tags — das Einbetten von Natural-Language-Befehlen direkt in den Text zur präzisen Steuerung von Stimme, Intonation und Emotionen. Das Modell ist auf Google AI Studio, Vertex AI und Google Vids verfügbar, mit SynthID-Wasserzeichen zur Erkennung KI-generierter Audioinhalte.
Google hat Gemini 3.1 Flash TTS vorgestellt — ein Text-to-Speech-Modell der neuen Generation, das hohe Sprachqualität mit präziser Kontrolle über Stimmmerkmale verbindet. Das Modell erreicht einen Elo-Wert von 1.211 auf der Artificial Analysis TTS-Rangliste und positioniert sich damit an der Spitze unter den Wettbewerbslösungen.
Was sind Audio-Tags und warum verändern sie die Spielregeln?
Die bedeutendste Innovation von Gemini 3.1 Flash TTS sind Audio-Tags — die Möglichkeit, Natural-Language-Befehle direkt in den Text einzubetten, der in Sprache umgewandelt wird. Anstatt komplexe SSML-Tags (Speech Synthesis Markup Language) oder begrenzte vordefinierte Stile zu verwenden, können Nutzer die gewünschte Aussprache in natürlicher Sprache beschreiben.
Beispielsweise kann ein Nutzer eine Anweisung wie „sprich den folgenden Satz flüsternd mit einer dramatischen Pause am Ende” in den Text einfügen — und das Modell setzt dies um. Dies ermöglicht bis zu 6 Luminanzzonen für die Stimmabstufung und gibt Kreativen ein Maß an Kontrolle, das bisher einen professionellen Sprecher und ein Tonstudio erforderte.
Wie groß ist die Sprachunterstützung?
Mit Unterstützung für mehr als 70 Sprachen übertrifft Gemini 3.1 Flash TTS die meisten Wettbewerbslösungen in der Sprachabdeckung. Das Modell unterstützt nativ Mehrsprecherdialoge — die Fähigkeit, verschiedenen Figuren in einem Text unterschiedliche Stimmen zuzuweisen, ohne für jeden Sprecher separate API-Aufrufe zu benötigen.
Für Entwicklungsteams, die globale Produkte bauen — von virtuellen Assistenten bis zu Bildungsplattformen —, bedeutet dies ein Modell statt separater Integrationen für jeden Markt. Die Sprachqualität ist sprachübergreifend konsistent, was traditionell eine Herausforderung für TTS-Systeme darstellte.
Wie schützt SynthID vor Missbrauch?
Google hat SynthID-Wasserzeichen in das Modell integriert — eine Technologie zur unmerklichen Kennzeichnung KI-generierter Audioinhalte. Jeder generierte Audioinhalt trägt eine digitale Markierung, die eine nachträgliche Erkennung ermöglicht, dass der Inhalt von einer künstlichen Intelligenz erstellt wurde, ohne die Audioqualität zu beeinträchtigen.
Dies ist eine Antwort auf wachsende Bedenken hinsichtlich Deepfake-Audioinhalten und Stimmenbetrug. SynthID verhindert zwar nicht die Generierung, ermöglicht aber die Authentizitätsüberprüfung — ein wichtiges Werkzeug für Plattformen, Regulierungsbehörden und Journalisten.
Das Modell ist auf Google AI Studio zum Experimentieren, auf Vertex AI für den Produktionseinsatz und auf Google Vids zur Erstellung von Videoinhalten mit einem KI-Erzähler verfügbar.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Thinking with Reasoning Skills (ACL 2026 Industry Track): weniger Token, höhere Genauigkeit durch Abruf von Reasoning-Skills
DeepSeek veröffentlicht V4-Pro und V4-Flash: zwei Open-Source-Modelle mit einer Million Token Kontext und 80,6 auf SWE Verified
OpenAI stellt GPT-5.5 vor: das intelligenteste Modell für Coding, Forschung und komplexe Datenanalyse durch Werkzeuge