AWS: Tri arhitekturna uzorka za skalabilne glasovne agente s Amazon Nova Sonic
AWS je objavio detaljan vodič za skalabilne glasovne agente koji koriste Amazon Nova Sonic i AgentCore Gateway. Tri arhitekturna uzorka — direktni alati, sub-agenti i segmentacija sesija — nude različite kompromise između latencije i operativne složenosti.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Amazon Nova Sonic je AWS-ov temeljni model za glasovnu AI — obavlja razgovore u stvarnom vremenu, razumije ton i kontekst te može pozivati vanjske alate izravno tijekom govorne sesije. Za razliku od tradicionalnih pipeline rješenja, Nova Sonic obrađuje govor od ulaza do izlaza bez međukoraka transkripcije.
Što je AgentCore Gateway i zašto je važan?
AgentCore Gateway je serverless infrastruktura koja izlaže poslovnu logiku kao MCP (Model Context Protocol) alate — upravljane endpoint-e koje Nova Sonic može pozivati bez posrednih slojeva zaključivanja. Voice agent u ovom kontekstu označava AI sustav koji prima govorni ulaz, razumije namjeru i izvršava radnje u stvarnom vremenu kroz govorni odgovor.
Ključna prednost Gatewaya je eliminacija latencije posrednika: kada korisnik postavi pitanje, model direktno poziva alat i vraća odgovor u istoj sesiji, bez prebacivanja kontrole na zasebni agent orchestrator.
Koji od tri uzorka ima najmanju latenciju?
AWS opisuje tri arhitekturna uzorka, svaki s jasnim kompromisima:
- Direktni alati — Nova Sonic poziva MCP alate izravno putem AgentCore Gatewaya. Najjednostavnija arhitektura, niska latencija, ali loše skalira za višekoračne radne tokove.
- Sub-agenti — Složeni zadaci delegiraju se specijaliziranim agentima s vlastitim modelima i alatima. Preporučuje se koristiti manje modele (Nova Lite ili Micro) kako bi se smanjila dodatna latencija od inferencije sub-agenta.
- Segmentacija sesija — Razgovor se dijeli na faze (npr. autentikacija → upravljanje računom → upiti o kreditima), svaka kao zasebna Nova Sonic sesija s fokusiranim promptom i minimalnim skupom alata. Kontekst prethodne faze prenosi se kao povijest razgovora.
Session segmentation postiže najnižu operativnu latenciju jer svaka sesija nosi samo alate relevantne za tu fazu — manji skup alata znači brži odabir i manje overhead-a u system promptu. Jedini trošak je kratka pauza pri prelasku između faza.
Praktične optimizacije latencije
AWS navodi nekoliko konkretnih tehnika: paralelno pozivanje neovisnih alata (nativno podržano u Strands frameworku), predohvat korisničkih podataka odmah nakon autentikacije te korištenje filler fraza poput “Provjerim odmah…” kako bi se maskirao vremenski trošak poziva alata. Sve tri tehnike primjenjuju se neovisno o odabranom arhitekturnom uzorku.
Izvor: AWS Machine Learning Blog
Česta pitanja
- Što je Amazon Nova Sonic i po čemu se razlikuje od klasičnih glasovnih pipeline rješenja?
- Amazon Nova Sonic je AWS-ov temeljni model za glasovnu AI koji obrađuje razgovor od ulaza do izlaza bez međukoraka transkripcije — razumije ton i kontekst te može pozivati vanjske alate izravno tijekom govorne sesije u stvarnom vremenu.
- Koji od tri arhitekturna uzorka postiže najnižu latenciju?
- Session segmentation (segmentacija sesija) postiže najnižu operativnu latenciju jer svaka faza razgovora nosi samo alate relevantne za tu fazu — manji skup alata znači brži odabir i manje overhead-a u system promptu.
- Kako AgentCore Gateway ubrzava pozive alata u glasovnim agentima?
- AgentCore Gateway izlaže poslovnu logiku kao MCP alate koje Nova Sonic može pozivati bez posrednih slojeva zaključivanja, eliminirając latenciju posrednika — model direktno poziva alat i vraća odgovor unutar iste glasovne sesije.