🟡 🤖 Modeli Objavljeno: · 2 min čitanja ·

Amazon Nova 2 Sonic: speech-to-speech foundation model s end-to-end latencijom ispod 500ms i 30ms audio latencijom

Editorial illustration: voice agent s glasovnim valovima i edge network grafikom.

Amazon Nova 2 Sonic je nova generacija speech-to-speech foundation modela objavljena 14. svibnja 2026. kroz Amazon Bedrock. Eliminira potrebu za odvojenim speech-to-text i text-to-speech servisima — end-to-end latencija ispod 500ms, audio latencija ispod 30ms preko Stream edge network-a, native turn detection, barge-in support i function calling tijekom razgovora. Stream Vision Agents framework apstrahira bidirectional audio stream menadžment.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Amazon Web Services je 14. svibnja 2026. lansirao Amazon Nova 2 Sonic — speech-to-speech foundation model druge generacije dostupan kroz Amazon Bedrock. Novi model eliminira pipeline kompleksnost klasičnih voice agent stack-ova i pomiče latency benchmarke ispod pragova koji omogućuju prirodan ljudski razgovor.

Što Nova 2 Sonic mijenja u arhitekturi voice agenata?

Tradicionalni voice agent stack koristi tri odvojena servisa: speech-to-text (STT), LLM reasoning i text-to-speech (TTS). Svaki dodaje latenciju i točke kvara. Nova 2 Sonic je speech-to-speech foundation model — razumije ulazni govor i generira izlazni audio direktno, eliminirajući STT/TTS slojeve. Rezultat je end-to-end latencija “typically under 500 milliseconds”.

Koje konkretne latencije Amazon navodi?

Tri ključne metrike pozicioniraju Nova 2 Sonic za produkciju:

  • End-to-end latency: typically pod 500 milisekundi
  • Audio latency: pod 30 milisekundi kroz Stream edge network
  • Join times: sub-500ms pri uspostavi konekcije

Ovi pragovi omogućuju “natural conversational flow without perceptible delays” — razgovorni partner ne osjeća unakrsne pauze koje degradiraju kvalitetu komunikacije.

Koje funkcije model nudi?

Nova 2 Sonic kombinira pet sposobnosti u jednom modelu:

  • Speech-to-speech conversion s razumijevanjem i rasuđivanjem
  • Voice activity detection za identifikaciju govornih granica i prekida
  • Barge-in support dozvoljava korisniku da prekine agenta prirodno
  • Function calling tijekom razgovora za API integraciju i backend akcije
  • Contextual awareness održava punu povijest razgovora

Što Stream Vision Agents framework dodaje?

Stream Vision Agents framework apstrahira kompleksnost upravljanja bidirectional audio stream-ovima. Koristi event-driven bidirectional streaming API umjesto tradicionalnih request-response patterna, što razvojnim timovima omogućuje izgradnju production-grade voice aplikacija u minimalnom kodu. Framework rješava connection management, jitter buffering, packet loss recovery i adaptive bitrate kompresiju.

Pristup pozicionira Amazon u arenu real-time voice agenata gdje su OpenAI Realtime API, ElevenLabs Conversational i Google Gemini Live dominirali. Cijena ulaska je integracija s Bedrock ekosustavom — što je trade-off za kupce koji su već u AWS-u.

Česta pitanja

Po čemu se Nova 2 Sonic razlikuje od Nova Sonic 1?
Nova 2 Sonic je novi generation foundation model s end-to-end latencijom ispod 500ms (vs. duže kod Nova Sonic 1), native turn detection bez vanjskih VAD biblioteka, barge-in support i function calling tijekom razgovora — Nova Sonic 1 je zahtijevao Stream Vision Agents framework za equivalentnu funkcionalnost.
Koje latencije Amazon konkretno navodi?
End-to-end latencija typically pod 500ms, audio latencija pod 30ms kroz Stream edge network, sub-500ms join times pri uspostavi konekcije — sve unutar pragova koji omogućuju prirodan razgovor bez perceptibilnih kašnjenja.