AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz multi-turn razgovore
Zašto je bitno
AWS je predstavio ToolSimulator, LLM-pogonjeni framework unutar Strands Evals platforme za sigurno testiranje AI agenata bez živih API poziva. Simulator održava dosljedni shared state kroz višekoračne razgovore i generira kontekstualno prikladne odgovore, što omogućuje testiranje agenata koji šalju mailove ili mijenjaju baze bez stvarnih posljedica.
Što je AWS objavio?
AWS je 20. travnja 2026. predstavio ToolSimulator — novi framework unutar Strands Evals platforme dizajniran za sigurno i skalabilno testiranje AI agenata bez izvršavanja živih API poziva. Cilj je riješiti jedan od najbolnijih problema u izgradnji production agenata: kako testirati agenta koji šalje mailove, mijenja baze podataka ili naručuje letove, a da pritom ne izazoveš stvarne posljedice.
Zašto su klasični mockovi nedostatni?
Programeri desetljećima koriste mockove — lažne verzije vanjskih sustava koje vraćaju unaprijed definirane odgovore. Problem s agentima je što oni vode dinamične, višekoračne razgovore u kojima stanje sustava evoluira. Klasični mock je statičan: vraća isti odgovor svaki put. Ne može reći “ovog korisnika si stvorio u koraku 1, sad ga možeš ažurirati u koraku 5”.
Rezultat: mockovi su ili pretanki (ne hvataju realizam) ili preskupi za održavanje (svaki test scenarij zahtijeva ručno kodiranje state machine-a).
Kako ToolSimulator rješava problem?
ToolSimulator koristi LLM pod haubom da generira odgovore alata u hodu. Ključna inovacija je shared state — simulator pamti sve što se dogodilo u razgovoru i brine da budući odgovori budu dosljedni s poviješću.
Primjer: agent pozove create_user(name="Ana") u koraku 2. U koraku 7 pozove list_users() — ToolSimulator zna da Ana mora biti u listi jer je prethodno stvorena. Bez LLM-a, programer bi morao ručno kodirati taj state; s njim, simulator to radi automatski.
Kako izgleda integracija?
Tehnička integracija je deklarativna i jednostavna:
@simulator.tool()dekorator — programer označi Python funkciju kao alat dostupan agentu. Simulator automatski preuzima signature i docstring.- Pydantic modeli — koriste se za schema enforcement. Što to znači? Pydantic provjerava da argumenti i povratne vrijednosti imaju točne tipove — ako agent pošalje string umjesto broja, test pada na toj razini, prije nego što LLM generira odgovor.
Developer dakle piše opis alata, a ne implementaciju — ToolSimulator pokriva ostatak.
Zašto je PII zaštita važna?
Definicija: PII (Personally Identifiable Information) znači osobno prepoznatljivi podaci — imena, OIB-ovi, adrese, telefonski brojevi, e-mail adrese.
Testiranje agenata na pravim API-jima znači da PII curi u logove, staging baze i analitiku. To je regulatorni problem (GDPR u EU, HIPAA u SAD-u) i praktični problem (curenje iz staging okoline u javnost).
ToolSimulator nikad ne doziva pravi API, pa nema PII izvora — simulacija generira sintetičke podatke koji izgledaju realno, ali nisu vezani za stvarne osobe.
Kome je to korisno?
Svakom timu koji gradi agente s tool use-om. Od startupa koji testiraju MVP agenta do velikih organizacija koje validiraju production deploye. Posebno korisno za:
- Unit testove — izolacija jedne interakcije agenta s jednim alatom
- End-to-end testove — cijeli workflow s više alata i koraka
- Regression testove — provjera da novi model ponaša jednako kao stari
Zaključak
ToolSimulator je konkretan odgovor na realan problem: production agente treba testirati, a testiranje na živim sustavima je skupo, sporo i rizično. AWS ovim potezom signalizira da agent observability i testability postaju prvoklasni građani u cloud infrastrukturi, ne samo opcijska dodatna značajka. Integracija s Strands Evals daje platformi komplettan stack — od razvoja preko simulacije do evaluacije.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu
AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti
OpenAI objavio Symphony: open-source specifikaciju za orkestraciju Codex agenata koja issue trackere pretvara u 'always-on' inženjerske sustave