🤖 24 AI
🟢 🤝 Agenti utorak, 21. travnja 2026. · 3 min čitanja

AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz multi-turn razgovore

Editorialna ilustracija: AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz

Zašto je bitno

AWS je predstavio ToolSimulator, LLM-pogonjeni framework unutar Strands Evals platforme za sigurno testiranje AI agenata bez živih API poziva. Simulator održava dosljedni shared state kroz višekoračne razgovore i generira kontekstualno prikladne odgovore, što omogućuje testiranje agenata koji šalju mailove ili mijenjaju baze bez stvarnih posljedica.

Što je AWS objavio?

AWS je 20. travnja 2026. predstavio ToolSimulator — novi framework unutar Strands Evals platforme dizajniran za sigurno i skalabilno testiranje AI agenata bez izvršavanja živih API poziva. Cilj je riješiti jedan od najbolnijih problema u izgradnji production agenata: kako testirati agenta koji šalje mailove, mijenja baze podataka ili naručuje letove, a da pritom ne izazoveš stvarne posljedice.

Zašto su klasični mockovi nedostatni?

Programeri desetljećima koriste mockove — lažne verzije vanjskih sustava koje vraćaju unaprijed definirane odgovore. Problem s agentima je što oni vode dinamične, višekoračne razgovore u kojima stanje sustava evoluira. Klasični mock je statičan: vraća isti odgovor svaki put. Ne može reći “ovog korisnika si stvorio u koraku 1, sad ga možeš ažurirati u koraku 5”.

Rezultat: mockovi su ili pretanki (ne hvataju realizam) ili preskupi za održavanje (svaki test scenarij zahtijeva ručno kodiranje state machine-a).

Kako ToolSimulator rješava problem?

ToolSimulator koristi LLM pod haubom da generira odgovore alata u hodu. Ključna inovacija je shared state — simulator pamti sve što se dogodilo u razgovoru i brine da budući odgovori budu dosljedni s poviješću.

Primjer: agent pozove create_user(name="Ana") u koraku 2. U koraku 7 pozove list_users() — ToolSimulator zna da Ana mora biti u listi jer je prethodno stvorena. Bez LLM-a, programer bi morao ručno kodirati taj state; s njim, simulator to radi automatski.

Kako izgleda integracija?

Tehnička integracija je deklarativna i jednostavna:

  • @simulator.tool() dekorator — programer označi Python funkciju kao alat dostupan agentu. Simulator automatski preuzima signature i docstring.
  • Pydantic modeli — koriste se za schema enforcement. Što to znači? Pydantic provjerava da argumenti i povratne vrijednosti imaju točne tipove — ako agent pošalje string umjesto broja, test pada na toj razini, prije nego što LLM generira odgovor.

Developer dakle piše opis alata, a ne implementaciju — ToolSimulator pokriva ostatak.

Zašto je PII zaštita važna?

Definicija: PII (Personally Identifiable Information) znači osobno prepoznatljivi podaci — imena, OIB-ovi, adrese, telefonski brojevi, e-mail adrese.

Testiranje agenata na pravim API-jima znači da PII curi u logove, staging baze i analitiku. To je regulatorni problem (GDPR u EU, HIPAA u SAD-u) i praktični problem (curenje iz staging okoline u javnost).

ToolSimulator nikad ne doziva pravi API, pa nema PII izvora — simulacija generira sintetičke podatke koji izgledaju realno, ali nisu vezani za stvarne osobe.

Kome je to korisno?

Svakom timu koji gradi agente s tool use-om. Od startupa koji testiraju MVP agenta do velikih organizacija koje validiraju production deploye. Posebno korisno za:

  • Unit testove — izolacija jedne interakcije agenta s jednim alatom
  • End-to-end testove — cijeli workflow s više alata i koraka
  • Regression testove — provjera da novi model ponaša jednako kao stari

Zaključak

ToolSimulator je konkretan odgovor na realan problem: production agente treba testirati, a testiranje na živim sustavima je skupo, sporo i rizično. AWS ovim potezom signalizira da agent observability i testability postaju prvoklasni građani u cloud infrastrukturi, ne samo opcijska dodatna značajka. Integracija s Strands Evals daje platformi komplettan stack — od razvoja preko simulacije do evaluacije.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.