AWS ToolSimulator: testiranje AI agenata bez API poziva

AWS je predstavio ToolSimulator, LLM-pogonjeni framework unutar Strands Evals platforme za sigurno testiranje AI agenata bez živih API poziva. Simulator održava dosljedni shared state kroz višekoračne razgovore i generira kontekstualno prikladne odgovore, što omogućuje testiranje agenata koji šalju mailove ili mijenjaju baze bez stvarnih posljedica.

Što je AWS objavio?

AWS je 20. travnja 2026. predstavio ToolSimulator — novi framework unutar Strands Evals platforme dizajniran za sigurno i skalabilno testiranje AI agenata bez izvršavanja živih API poziva. Cilj je riješiti jedan od najbolnijih problema u izgradnji production agenata: kako testirati agenta koji šalje mailove, mijenja baze podataka ili naručuje letove, a da pritom ne izazoveš stvarne posljedice.

Zašto su klasični mockovi nedostatni?

Programeri desetljećima koriste mockove — lažne verzije vanjskih sustava koje vraćaju unaprijed definirane odgovore. Problem s agentima je što oni vode dinamične, višekoračne razgovore u kojima stanje sustava evoluira. Klasični mock je statičan: vraća isti odgovor svaki put. Ne može reći “ovog korisnika si stvorio u koraku 1, sad ga možeš ažurirati u koraku 5”.

Rezultat: mockovi su ili pretanki (ne hvataju realizam) ili preskupi za održavanje (svaki test scenarij zahtijeva ručno kodiranje state machine-a).

Kako ToolSimulator rješava problem?

ToolSimulator koristi LLM pod haubom da generira odgovore alata u hodu. Ključna inovacija je shared state — simulator pamti sve što se dogodilo u razgovoru i brine da budući odgovori budu dosljedni s poviješću.

Primjer: agent pozove create_user(name="Ana") u koraku 2. U koraku 7 pozove list_users() — ToolSimulator zna da Ana mora biti u listi jer je prethodno stvorena. Bez LLM-a, programer bi morao ručno kodirati taj state; s njim, simulator to radi automatski.

Kako izgleda integracija?

Tehnička integracija je deklarativna i jednostavna:

@simulator.tool() dekorator — programer označi Python funkciju kao alat dostupan agentu. Simulator automatski preuzima signature i docstring.
Pydantic modeli — koriste se za schema enforcement. Što to znači? Pydantic provjerava da argumenti i povratne vrijednosti imaju točne tipove — ako agent pošalje string umjesto broja, test pada na toj razini, prije nego što LLM generira odgovor.

Developer dakle piše opis alata, a ne implementaciju — ToolSimulator pokriva ostatak.

Zašto je PII zaštita važna?

Definicija: PII (Personally Identifiable Information) znači osobno prepoznatljivi podaci — imena, OIB-ovi, adrese, telefonski brojevi, e-mail adrese.

Testiranje agenata na pravim API-jima znači da PII curi u logove, staging baze i analitiku. To je regulatorni problem (GDPR u EU, HIPAA u SAD-u) i praktični problem (curenje iz staging okoline u javnost).

ToolSimulator nikad ne doziva pravi API, pa nema PII izvora — simulacija generira sintetičke podatke koji izgledaju realno, ali nisu vezani za stvarne osobe.

Kome je to korisno?

Svakom timu koji gradi agente s tool use-om. Od startupa koji testiraju MVP agenta do velikih organizacija koje validiraju production deploye. Posebno korisno za:

Unit testove — izolacija jedne interakcije agenta s jednim alatom
End-to-end testove — cijeli workflow s više alata i koraka
Regression testove — provjera da novi model ponaša jednako kao stari

Zaključak

ToolSimulator je konkretan odgovor na realan problem: production agente treba testirati, a testiranje na živim sustavima je skupo, sporo i rizično. AWS ovim potezom signalizira da agent observability i testability postaju prvoklasni građani u cloud infrastrukturi, ne samo opcijska dodatna značajka. Integracija s Strands Evals daje platformi komplettan stack — od razvoja preko simulacije do evaluacije.

Česta pitanja

Po čemu se ToolSimulator razlikuje od klasičnih mockova?

Klasični mockovi vraćaju statički definirane odgovore — programer unaprijed piše što će funkcija vratiti. ToolSimulator koristi LLM da generira kontekstualno prikladne odgovore u hodu i, što je ključno, održava shared state kroz cijeli razgovor — ako agent stvori korisnika u koraku 1, u koraku 5 će taj korisnik još uvijek postojati.

Što je PII i zašto je bitan u testiranju agenata?

PII znači Personally Identifiable Information — osobno prepoznatljivi podaci poput imena, adrese, OIB-a, e-maila. Testiranje agenata na pravim API-jima riskira izlaganje PII-ja u logovima, bazama ili analitici. ToolSimulator u potpunosti izbjegava pravi API pa nema PII ekspozicije.

Mogu li koristiti ToolSimulator u vlastitom projektu?

Da, framework je dio Strands Evals platforme AWS-a. Integracija koristi Python dekorator @simulator.tool() za registraciju alata i Pydantic modele za schema enforcement. Developer opisuje što alat radi, a simulator generira realistične odgovore tijekom testa bez ikakvog kontakta s produkcijskim sustavima.

AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz multi-turn razgovore