🤖 24 AI
🟡 🤖 Modelle Donnerstag, 16. April 2026 · 2 Min. Lesezeit

Google: Gemini 3.1 Flash TTS bringt ausdrucksstarke KI-Sprache in mehr als 70 Sprachen

Warum es wichtig ist

Google hat Gemini 3.1 Flash TTS lanciert, ein neues Text-to-Speech-Modell mit Unterstützung für mehr als 70 Sprachen und einem Elo-Wert von 1.211 auf der Artificial-Analysis-Rangliste. Die Schlüsselinnovation sind Audio-Tags — das Einbetten von Natural-Language-Befehlen direkt in den Text zur präzisen Steuerung von Stimme, Intonation und Emotionen. Das Modell ist auf Google AI Studio, Vertex AI und Google Vids verfügbar, mit SynthID-Wasserzeichen zur Erkennung KI-generierter Audioinhalte.

Google hat Gemini 3.1 Flash TTS vorgestellt — ein Text-to-Speech-Modell der neuen Generation, das hohe Sprachqualität mit präziser Kontrolle über Stimmmerkmale verbindet. Das Modell erreicht einen Elo-Wert von 1.211 auf der Artificial Analysis TTS-Rangliste und positioniert sich damit an der Spitze unter den Wettbewerbslösungen.

Was sind Audio-Tags und warum verändern sie die Spielregeln?

Die bedeutendste Innovation von Gemini 3.1 Flash TTS sind Audio-Tags — die Möglichkeit, Natural-Language-Befehle direkt in den Text einzubetten, der in Sprache umgewandelt wird. Anstatt komplexe SSML-Tags (Speech Synthesis Markup Language) oder begrenzte vordefinierte Stile zu verwenden, können Nutzer die gewünschte Aussprache in natürlicher Sprache beschreiben.

Beispielsweise kann ein Nutzer eine Anweisung wie „sprich den folgenden Satz flüsternd mit einer dramatischen Pause am Ende” in den Text einfügen — und das Modell setzt dies um. Dies ermöglicht bis zu 6 Luminanzzonen für die Stimmabstufung und gibt Kreativen ein Maß an Kontrolle, das bisher einen professionellen Sprecher und ein Tonstudio erforderte.

Wie groß ist die Sprachunterstützung?

Mit Unterstützung für mehr als 70 Sprachen übertrifft Gemini 3.1 Flash TTS die meisten Wettbewerbslösungen in der Sprachabdeckung. Das Modell unterstützt nativ Mehrsprecherdialoge — die Fähigkeit, verschiedenen Figuren in einem Text unterschiedliche Stimmen zuzuweisen, ohne für jeden Sprecher separate API-Aufrufe zu benötigen.

Für Entwicklungsteams, die globale Produkte bauen — von virtuellen Assistenten bis zu Bildungsplattformen —, bedeutet dies ein Modell statt separater Integrationen für jeden Markt. Die Sprachqualität ist sprachübergreifend konsistent, was traditionell eine Herausforderung für TTS-Systeme darstellte.

Wie schützt SynthID vor Missbrauch?

Google hat SynthID-Wasserzeichen in das Modell integriert — eine Technologie zur unmerklichen Kennzeichnung KI-generierter Audioinhalte. Jeder generierte Audioinhalt trägt eine digitale Markierung, die eine nachträgliche Erkennung ermöglicht, dass der Inhalt von einer künstlichen Intelligenz erstellt wurde, ohne die Audioqualität zu beeinträchtigen.

Dies ist eine Antwort auf wachsende Bedenken hinsichtlich Deepfake-Audioinhalten und Stimmenbetrug. SynthID verhindert zwar nicht die Generierung, ermöglicht aber die Authentizitätsüberprüfung — ein wichtiges Werkzeug für Plattformen, Regulierungsbehörden und Journalisten.

Das Modell ist auf Google AI Studio zum Experimentieren, auf Vertex AI für den Produktionseinsatz und auf Google Vids zur Erstellung von Videoinhalten mit einem KI-Erzähler verfügbar.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.