Amazon Nova 2 Sonic: speech-to-speech foundation model s end-to-end latencijom ispod 500ms i 30ms audio latencijom
Amazon Nova 2 Sonic je nova generacija speech-to-speech foundation modela objavljena 14. svibnja 2026. kroz Amazon Bedrock. Eliminira potrebu za odvojenim speech-to-text i text-to-speech servisima — end-to-end latencija ispod 500ms, audio latencija ispod 30ms preko Stream edge network-a, native turn detection, barge-in support i function calling tijekom razgovora. Stream Vision Agents framework apstrahira bidirectional audio stream menadžment.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Amazon Web Services je 14. svibnja 2026. lansirao Amazon Nova 2 Sonic — speech-to-speech foundation model druge generacije dostupan kroz Amazon Bedrock. Novi model eliminira pipeline kompleksnost klasičnih voice agent stack-ova i pomiče latency benchmarke ispod pragova koji omogućuju prirodan ljudski razgovor.
Što Nova 2 Sonic mijenja u arhitekturi voice agenata?
Tradicionalni voice agent stack koristi tri odvojena servisa: speech-to-text (STT), LLM reasoning i text-to-speech (TTS). Svaki dodaje latenciju i točke kvara. Nova 2 Sonic je speech-to-speech foundation model — razumije ulazni govor i generira izlazni audio direktno, eliminirajući STT/TTS slojeve. Rezultat je end-to-end latencija “typically under 500 milliseconds”.
Koje konkretne latencije Amazon navodi?
Tri ključne metrike pozicioniraju Nova 2 Sonic za produkciju:
- End-to-end latency: typically pod 500 milisekundi
- Audio latency: pod 30 milisekundi kroz Stream edge network
- Join times: sub-500ms pri uspostavi konekcije
Ovi pragovi omogućuju “natural conversational flow without perceptible delays” — razgovorni partner ne osjeća unakrsne pauze koje degradiraju kvalitetu komunikacije.
Koje funkcije model nudi?
Nova 2 Sonic kombinira pet sposobnosti u jednom modelu:
- Speech-to-speech conversion s razumijevanjem i rasuđivanjem
- Voice activity detection za identifikaciju govornih granica i prekida
- Barge-in support dozvoljava korisniku da prekine agenta prirodno
- Function calling tijekom razgovora za API integraciju i backend akcije
- Contextual awareness održava punu povijest razgovora
Što Stream Vision Agents framework dodaje?
Stream Vision Agents framework apstrahira kompleksnost upravljanja bidirectional audio stream-ovima. Koristi event-driven bidirectional streaming API umjesto tradicionalnih request-response patterna, što razvojnim timovima omogućuje izgradnju production-grade voice aplikacija u minimalnom kodu. Framework rješava connection management, jitter buffering, packet loss recovery i adaptive bitrate kompresiju.
Pristup pozicionira Amazon u arenu real-time voice agenata gdje su OpenAI Realtime API, ElevenLabs Conversational i Google Gemini Live dominirali. Cijena ulaska je integracija s Bedrock ekosustavom — što je trade-off za kupce koji su već u AWS-u.
Česta pitanja
- Po čemu se Nova 2 Sonic razlikuje od Nova Sonic 1?
- Nova 2 Sonic je novi generation foundation model s end-to-end latencijom ispod 500ms (vs. duže kod Nova Sonic 1), native turn detection bez vanjskih VAD biblioteka, barge-in support i function calling tijekom razgovora — Nova Sonic 1 je zahtijevao Stream Vision Agents framework za equivalentnu funkcionalnost.
- Koje latencije Amazon konkretno navodi?
- End-to-end latencija typically pod 500ms, audio latencija pod 30ms kroz Stream edge network, sub-500ms join times pri uspostavi konekcije — sve unutar pragova koji omogućuju prirodan razgovor bez perceptibilnih kašnjenja.
Povezane vijesti
arXiv:2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM modelima
Black Forest Labs: FLUX Erase nadmašuje GPT Image-2 (68.5%) i Finegrain (63.2%) u uklanjanju objekata bez prompta
arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova