AWS: Nova Sonic Sprachagenten + WebRTC-Streaming

Amazon Nova Sonic + WebRTC-Integration ist eine neue AWS-Architektur, veröffentlicht am 13. Mai 2026, für Echtzeit-Sprachagentenanwendungen. Ein Speech-to-Speech-Ereignisprozessor orchestriert Medien- und Textdatenereignisse über Kinesis Video Streams WebRTC-Signaling, während server-seitiges VAD Audio-Tokens reduziert. Nova Sonic unterstützt asynchrones Tool Calling an MCP-Server, Strands-Agenten und RAG-Systeme — IoT- und Connected-Vehicle-Szenarien sind die ersten Demonstrationen.

Amazon Web Services veröffentlichte am 13. Mai 2026 eine Architektur, die das Nova-Sonic-Speech-to-Speech-Modell mit der Kinesis-Video-Streams-WebRTC-Pipeline kombiniert — ein Referenz-Blueprint für Echtzeit-Sprachagentenanwendungen mit asynchronem Tool Calling an MCP-Server und RAG-Systeme.

Wie teilen Nova Sonic und WebRTC die Verantwortung auf?

Die Architektur führt einen Speech-to-Speech-Ereignisprozessor ein, der „Eingabe- und Ausgabeereignisse” zwischen dem WebRTC-Stream und dem Nova-Sonic-Modell orchestriert. Die Kommunikation ist unterteilt in Medienereignisse (Audio über WebRTC) und Textdaten (über Datenkanäle). WebRTC stellt Peer-to-Peer-Verbindungen über Kinesis-Video-Streams-Signaling-Kanäle her und ermöglicht so bidirektionale Audio-/Videoübertragung mit adaptiver Bitratenkontrolle und Forward Error Correction.

Was leistet das server-seitige VAD?

Voice Activity Detection (VAD) nutzt die Python-WebRTCVAD-Bibliothek auf der Serverseite. Die Erkennung unterdrückt Rauschen und reduziert das Audio-Token-Volumen, bevor der Stream Nova Sonic erreicht. Der Ansatz bietet zwei Vorteile: Er senkt die Inferenzkosten (weniger Tokens = niedrigerer Bedrock-Preis) und verbessert die Latenz, da Nova Sonic keine langen Stillesegmente verarbeiten muss.

Wie ruft Nova Sonic während eines Gesprächs Tools auf?

Nova Sonic unterstützt asynchrone Tool-Aufrufe an MCP-Server, Strands-Agenten oder RAG-Systeme während einer Sprachsitzung. Ein Nutzer kann mitten im Gespräch fragen „Wie warm ist es gerade in der Garage?”, und der Agent ruft gleichzeitig einen MCP-Server auf, der den Sensorwert zurückgibt, ohne das Gespräch zu unterbrechen. Der asynchrone Ansatz ist entscheidend, da das Sprachlatenzzeitbudget (250–500 ms) keine synchrone RAG-Abfragepause erlaubt.

Was sind die ersten Demo-Anwendungsfälle?

AWS präsentiert zwei Szenarien. Smart Home: Sprachbefehle steuern IoT-Geräte über MQTT, integriert mit Amazon Bedrock Knowledge Base und einem MCP-Server — der Agent kennt den Gerätestatus und kann ihn steuern. Connected Vehicles: Echtzeit-Fahrerüberwachung erkennt Telefonnutzungsverhalten, während ein Sprachassistent den Sicherheitsstatus über unabhängige Überwachungsströme bestätigt — was den Sprachagenten zu einem Sicherheitswerkzeug macht, nicht nur zu einer Entertainment-Schnittstelle.

WebRTC liefert unter den Medien-Streaming-Protokollen (RTMP, RTSP, HLS, MPEG-DASH) die geringste Latenz — entscheidend für Sprachagenten, bei denen Verzögerungen über 500 ms die wahrgenommene Gesprächsqualität beeinträchtigen.

Häufig gestellte Fragen

Was ist Amazon Nova Sonic?

Nova Sonic ist Amazons Speech-to-Speech-Modell, das in die Kinesis Video Streams WebRTC-Pipeline integriert ist. Es unterstützt asynchrones Tool Calling an MCP-Server, Strands-Agenten und Bedrock Knowledge Base RAG-Systeme und macht Sprachagenten damit multimodal.

Wie funktioniert die Sprachaktivitätserkennung in dieser Architektur?

Server-seitiges VAD nutzt die Python-WebRTCVAD-Bibliothek zur Rauschunterdrückung und Reduzierung des Audio-Token-Volumens, bevor der Stream Nova Sonic erreicht — das senkt Inferenzkosten und verbessert die Latenz direkt.

Amazon Nova Sonic + WebRTC: Echtzeit-Sprachagenten mit Kinesis Video Streams und asynchronem Tool Calling für RAG/MCP

Wie teilen Nova Sonic und WebRTC die Verantwortung auf?

Was leistet das server-seitige VAD?

Wie ruft Nova Sonic während eines Gesprächs Tools auf?

Was sind die ersten Demo-Anwendungsfälle?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten