AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz multi-turn razgovore
Zašto je bitno
AWS je predstavio ToolSimulator, LLM-pogonjeni framework unutar Strands Evals platforme za sigurno testiranje AI agenata bez živih API poziva. Simulator održava dosljedni shared state kroz višekoračne razgovore i generira kontekstualno prikladne odgovore, što omogućuje testiranje agenata koji šalju mailove ili mijenjaju baze bez stvarnih posljedica.
Što je AWS objavio?
AWS je 20. travnja 2026. predstavio ToolSimulator — novi framework unutar Strands Evals platforme dizajniran za sigurno i skalabilno testiranje AI agenata bez izvršavanja živih API poziva. Cilj je riješiti jedan od najbolnijih problema u izgradnji production agenata: kako testirati agenta koji šalje mailove, mijenja baze podataka ili naručuje letove, a da pritom ne izazoveš stvarne posljedice.
Zašto su klasični mockovi nedostatni?
Programeri desetljećima koriste mockove — lažne verzije vanjskih sustava koje vraćaju unaprijed definirane odgovore. Problem s agentima je što oni vode dinamične, višekoračne razgovore u kojima stanje sustava evoluira. Klasični mock je statičan: vraća isti odgovor svaki put. Ne može reći “ovog korisnika si stvorio u koraku 1, sad ga možeš ažurirati u koraku 5”.
Rezultat: mockovi su ili pretanki (ne hvataju realizam) ili preskupi za održavanje (svaki test scenarij zahtijeva ručno kodiranje state machine-a).
Kako ToolSimulator rješava problem?
ToolSimulator koristi LLM pod haubom da generira odgovore alata u hodu. Ključna inovacija je shared state — simulator pamti sve što se dogodilo u razgovoru i brine da budući odgovori budu dosljedni s poviješću.
Primjer: agent pozove create_user(name="Ana") u koraku 2. U koraku 7 pozove list_users() — ToolSimulator zna da Ana mora biti u listi jer je prethodno stvorena. Bez LLM-a, programer bi morao ručno kodirati taj state; s njim, simulator to radi automatski.
Kako izgleda integracija?
Tehnička integracija je deklarativna i jednostavna:
@simulator.tool()dekorator — programer označi Python funkciju kao alat dostupan agentu. Simulator automatski preuzima signature i docstring.- Pydantic modeli — koriste se za schema enforcement. Što to znači? Pydantic provjerava da argumenti i povratne vrijednosti imaju točne tipove — ako agent pošalje string umjesto broja, test pada na toj razini, prije nego što LLM generira odgovor.
Developer dakle piše opis alata, a ne implementaciju — ToolSimulator pokriva ostatak.
Zašto je PII zaštita važna?
Definicija: PII (Personally Identifiable Information) znači osobno prepoznatljivi podaci — imena, OIB-ovi, adrese, telefonski brojevi, e-mail adrese.
Testiranje agenata na pravim API-jima znači da PII curi u logove, staging baze i analitiku. To je regulatorni problem (GDPR u EU, HIPAA u SAD-u) i praktični problem (curenje iz staging okoline u javnost).
ToolSimulator nikad ne doziva pravi API, pa nema PII izvora — simulacija generira sintetičke podatke koji izgledaju realno, ali nisu vezani za stvarne osobe.
Kome je to korisno?
Svakom timu koji gradi agente s tool use-om. Od startupa koji testiraju MVP agenta do velikih organizacija koje validiraju production deploye. Posebno korisno za:
- Unit testove — izolacija jedne interakcije agenta s jednim alatom
- End-to-end testove — cijeli workflow s više alata i koraka
- Regression testove — provjera da novi model ponaša jednako kao stari
Zaključak
ToolSimulator je konkretan odgovor na realan problem: production agente treba testirati, a testiranje na živim sustavima je skupo, sporo i rizično. AWS ovim potezom signalizira da agent observability i testability postaju prvoklasni građani u cloud infrastrukturi, ne samo opcijska dodatna značajka. Integracija s Strands Evals daje platformi komplettan stack — od razvoja preko simulacije do evaluacije.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija
GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda
ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji