Amazon Nova Sonic + WebRTC: real-time voice agenti s Kinesis Video Streams i async tool callingom za RAG/MCP
Amazon Nova Sonic + WebRTC integracija je nova AWS arhitektura objavljena 13. svibnja 2026. za real-time voice agentne aplikacije. Speech-to-speech event procesor orkestrira media i text data eventove kroz Kinesis Video Streams WebRTC signaling, dok server-side VAD smanjuje audio tokene. Nova Sonic podržava async tool calling prema MCP serverima, Strands agentima i RAG sustavima — IoT i connected vehicle scenariji su prvi demonstracije.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Amazon Web Services je 13. svibnja 2026. objavio arhitekturu koja kombinira Nova Sonic speech-to-speech model s Kinesis Video Streams WebRTC pipeline-om — referentni blueprint za real-time voice agentne aplikacije s async tool calling pristupom prema MCP serverima i RAG sustavima.
Kako Nova Sonic i WebRTC dijele odgovornost?
Arhitektura uvodi speech-to-speech event procesor koji “orkestrira input i output events” između WebRTC stream-a i Nova Sonic modela. Komunikacija se dijeli na media events (audio kroz WebRTC) i text data (kroz data channels). WebRTC uspostavlja peer-to-peer linkove kroz Kinesis Video Streams signaling channels, što omogućuje bidirekcijsku audio/video transmisiju s adaptive bitrate control-om i forward error correction-om.
Što server-side VAD doprinosi?
Voice Activity Detection (VAD) koristi Python WebRTCVAD library na serverskoj strani. Detekcija potiskuje šum i reducira audio token volumen prije nego što stream stigne do Nova Sonic-a. Pristup ima dva benefita: smanjuje troškove inferencije (manje tokena = manja Bedrock cijena) i poboljšava latenciju jer Nova Sonic ne mora obrađivati duge segmente tišine.
Kako Nova Sonic priziva alate tijekom razgovora?
Nova Sonic podržava asinkronu tool callouts prema MCP serverima, Strands agentima ili RAG sustavima tijekom glasovne sesije. Korisnik može pitati “koja je trenutna temperatura u garaži?” tijekom razgovora s voice asistentom, a agent paralelno poziva MCP server koji vraća sensor reading bez prekidanja razgovora. Async pristup je kritičan jer voice latency budget (250-500ms) ne dozvoljava sinkronu RAG lookup pauzu.
Koja su prva demonstracijska use case-ova?
AWS prikazuje dva scenarija. Smart home: glasovne komande kontroliraju IoT uređaje kroz MQTT protokol, integriran s Amazon Bedrock Knowledge Base i MCP serverom — agent zna stanje uređaja i može ih kontrolirati. Connected vehicles: real-time driver monitoring detektira ponašanja korištenja telefona, dok voice asistent kroz nezavisne monitoring tokove potvrđuje safety status — što pretvara voice agent u sigurnosni alat, ne samo entertainment interfejs.
WebRTC isporučuje najnižu latenciju među media streaming protokolima (RTMP, RTSP, HLS, MPEG-DASH) — kritično za voice agente gdje delays preko 500ms degradiraju percepciju kvalitete razgovora.
Česta pitanja
- Što je Amazon Nova 2 Sonic?
- Nova 2 Sonic je Amazon speech-to-speech model integriran s Kinesis Video Streams WebRTC pipeline-om; podržava async tool calling prema MCP serverima, Strands agentima i Bedrock Knowledge Base RAG sustavima, što voice agenti čini multi-modal-ima.
- Kako Voice Activity Detection radi u ovoj arhitekturi?
- Server-side VAD koristi Python WebRTCVAD library za potiskivanje šuma i smanjenje audio token volumena prije nego što stream stigne do Nova Sonic-a — što direktno reducira troškove inferencije i poboljšava latenciju.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije