🟡 🤖 Modelle Veröffentlicht: · 2 Min. Lesezeit ·

Amazon Nova 2 Sonic: Speech-to-Speech-Foundation-Modell mit Ende-zu-Ende-Latenz unter 500 ms und 30 ms Audio-Latenz

Redaktionelle Illustration: Sprachagent mit Schallwellen und Edge-Netzwerk-Grafik.

Amazon Nova 2 Sonic ist ein neues Speech-to-Speech-Foundation-Modell der zweiten Generation, das am 14. Mai 2026 über Amazon Bedrock angekündigt wurde. Es eliminiert den Bedarf an separaten Speech-to-Text- und Text-to-Speech-Diensten — Ende-zu-Ende-Latenz unter 500 ms, Audio-Latenz unter 30 ms über das Stream-Edge-Netzwerk, native Turn Detection, Barge-in-Unterstützung und Function Calling während des Gesprächs. Das Stream Vision Agents Framework abstrahiert das bidirektionale Audio-Stream-Management.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Amazon Web Services hat am 14. Mai 2026 Amazon Nova 2 Sonic auf den Markt gebracht — ein Speech-to-Speech-Foundation-Modell der zweiten Generation, das über Amazon Bedrock verfügbar ist. Das neue Modell eliminiert die Pipeline-Komplexität klassischer Voice-Agent-Stacks und verschiebt Latenz-Benchmarks unter Schwellenwerte, die natürliche menschliche Konversation ermöglichen.

Was ändert Nova 2 Sonic an der Voice-Agent-Architektur?

Traditionelle Voice-Agent-Stacks verwenden drei separate Dienste: Speech-to-Text (STT), LLM-Reasoning und Text-to-Speech (TTS). Jeder fügt Latenz und Fehlerquellen hinzu. Nova 2 Sonic ist ein Speech-to-Speech-Foundation-Modell — es versteht Spracheingaben und generiert Audio-Ausgaben direkt, wodurch STT/TTS-Schichten entfallen. Das Ergebnis ist eine Ende-zu-Ende-Latenz von „typischerweise unter 500 Millisekunden”.

Welche konkreten Latenzen nennt Amazon?

Drei Schlüsselmetriken positionieren Nova 2 Sonic für den Produktionseinsatz:

  • Ende-zu-Ende-Latenz: typischerweise unter 500 Millisekunden
  • Audio-Latenz: unter 30 Millisekunden über das Stream-Edge-Netzwerk
  • Verbindungsaufbauzeiten: unter 500 ms beim Aufbau einer Verbindung

Diese Schwellenwerte ermöglichen „natürlichen Gesprächsfluss ohne wahrnehmbare Verzögerungen” — der Gesprächspartner bemerkt keine Überlappungspausen, die die Kommunikationsqualität beeinträchtigen.

Welche Funktionen bietet das Modell?

Nova 2 Sonic vereint fünf Fähigkeiten in einem einzigen Modell:

  • Speech-to-Speech-Konvertierung mit Verstehen und Reasoning
  • Sprachaktivitätserkennung zur Identifizierung von Sprachgrenzen und Unterbrechungen
  • Barge-in-Unterstützung ermöglicht dem Nutzer, den Agenten natürlich zu unterbrechen
  • Function Calling während des Gesprächs für API-Integration und Backend-Aktionen
  • Kontextbewusstsein hält eine vollständige Gesprächshistorie aufrecht

Was fügt das Stream Vision Agents Framework hinzu?

Das Stream Vision Agents Framework abstrahiert die Komplexität der Verwaltung bidirektionaler Audio-Streams. Es verwendet eine ereignisgesteuerte bidirektionale Streaming-API anstelle traditioneller Request-Response-Muster, sodass Entwicklungsteams produktionsreife Sprachanwendungen mit minimalem Code erstellen können. Das Framework übernimmt Verbindungsmanagement, Jitter-Pufferung, Paketverlust-Wiederherstellung und adaptive Bitratenkomprimierung.

Dieser Ansatz positioniert Amazon in der Arena der Echtzeit-Sprachagenten, in der OpenAI Realtime API, ElevenLabs Conversational und Google Gemini Live bisher dominierten. Der Einstiegspreis ist die Integration in das Bedrock-Ökosystem — ein Kompromiss für Kunden, die bereits auf AWS setzen.

Häufig gestellte Fragen

Worin unterscheidet sich Nova 2 Sonic von Nova Sonic 1?
Nova 2 Sonic ist ein Foundation-Modell der neuen Generation mit Ende-zu-Ende-Latenz unter 500 ms (gegenüber längerer Latenz bei Nova Sonic 1), nativer Turn Detection ohne externe VAD-Bibliotheken, Barge-in-Unterstützung und Function Calling während des Gesprächs — Nova Sonic 1 benötigte das Stream Vision Agents Framework für gleichwertige Funktionalität.
Welche konkreten Latenzen nennt Amazon?
Ende-zu-Ende-Latenz typischerweise unter 500 ms, Audio-Latenz unter 30 ms über das Stream-Edge-Netzwerk, Sub-500-ms-Verbindungsaufbauzeiten — alle innerhalb von Schwellenwerten, die natürliche Konversation ohne wahrnehmbare Verzögerungen ermöglichen.