AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz multi-turn razgovore
AWS je predstavio ToolSimulator, LLM-pogonjeni framework unutar Strands Evals platforme za sigurno testiranje AI agenata bez živih API poziva. Simulator održava dosljedni shared state kroz višekoračne razgovore i generira kontekstualno prikladne odgovore, što omogućuje testiranje agenata koji šalju mailove ili mijenjaju baze bez stvarnih posljedica.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je AWS objavio?
AWS je 20. travnja 2026. predstavio ToolSimulator — novi framework unutar Strands Evals platforme dizajniran za sigurno i skalabilno testiranje AI agenata bez izvršavanja živih API poziva. Cilj je riješiti jedan od najbolnijih problema u izgradnji production agenata: kako testirati agenta koji šalje mailove, mijenja baze podataka ili naručuje letove, a da pritom ne izazoveš stvarne posljedice.
Zašto su klasični mockovi nedostatni?
Programeri desetljećima koriste mockove — lažne verzije vanjskih sustava koje vraćaju unaprijed definirane odgovore. Problem s agentima je što oni vode dinamične, višekoračne razgovore u kojima stanje sustava evoluira. Klasični mock je statičan: vraća isti odgovor svaki put. Ne može reći “ovog korisnika si stvorio u koraku 1, sad ga možeš ažurirati u koraku 5”.
Rezultat: mockovi su ili pretanki (ne hvataju realizam) ili preskupi za održavanje (svaki test scenarij zahtijeva ručno kodiranje state machine-a).
Kako ToolSimulator rješava problem?
ToolSimulator koristi LLM pod haubom da generira odgovore alata u hodu. Ključna inovacija je shared state — simulator pamti sve što se dogodilo u razgovoru i brine da budući odgovori budu dosljedni s poviješću.
Primjer: agent pozove create_user(name="Ana") u koraku 2. U koraku 7 pozove list_users() — ToolSimulator zna da Ana mora biti u listi jer je prethodno stvorena. Bez LLM-a, programer bi morao ručno kodirati taj state; s njim, simulator to radi automatski.
Kako izgleda integracija?
Tehnička integracija je deklarativna i jednostavna:
@simulator.tool()dekorator — programer označi Python funkciju kao alat dostupan agentu. Simulator automatski preuzima signature i docstring.- Pydantic modeli — koriste se za schema enforcement. Što to znači? Pydantic provjerava da argumenti i povratne vrijednosti imaju točne tipove — ako agent pošalje string umjesto broja, test pada na toj razini, prije nego što LLM generira odgovor.
Developer dakle piše opis alata, a ne implementaciju — ToolSimulator pokriva ostatak.
Zašto je PII zaštita važna?
Definicija: PII (Personally Identifiable Information) znači osobno prepoznatljivi podaci — imena, OIB-ovi, adrese, telefonski brojevi, e-mail adrese.
Testiranje agenata na pravim API-jima znači da PII curi u logove, staging baze i analitiku. To je regulatorni problem (GDPR u EU, HIPAA u SAD-u) i praktični problem (curenje iz staging okoline u javnost).
ToolSimulator nikad ne doziva pravi API, pa nema PII izvora — simulacija generira sintetičke podatke koji izgledaju realno, ali nisu vezani za stvarne osobe.
Kome je to korisno?
Svakom timu koji gradi agente s tool use-om. Od startupa koji testiraju MVP agenta do velikih organizacija koje validiraju production deploye. Posebno korisno za:
- Unit testove — izolacija jedne interakcije agenta s jednim alatom
- End-to-end testove — cijeli workflow s više alata i koraka
- Regression testove — provjera da novi model ponaša jednako kao stari
Zaključak
ToolSimulator je konkretan odgovor na realan problem: production agente treba testirati, a testiranje na živim sustavima je skupo, sporo i rizično. AWS ovim potezom signalizira da agent observability i testability postaju prvoklasni građani u cloud infrastrukturi, ne samo opcijska dodatna značajka. Integracija s Strands Evals daje platformi komplettan stack — od razvoja preko simulacije do evaluacije.
Česta pitanja
- Po čemu se ToolSimulator razlikuje od klasičnih mockova?
- Klasični mockovi vraćaju statički definirane odgovore — programer unaprijed piše što će funkcija vratiti. ToolSimulator koristi LLM da generira kontekstualno prikladne odgovore u hodu i, što je ključno, održava shared state kroz cijeli razgovor — ako agent stvori korisnika u koraku 1, u koraku 5 će taj korisnik još uvijek postojati.
- Što je PII i zašto je bitan u testiranju agenata?
- PII znači Personally Identifiable Information — osobno prepoznatljivi podaci poput imena, adrese, OIB-a, e-maila. Testiranje agenata na pravim API-jima riskira izlaganje PII-ja u logovima, bazama ili analitici. ToolSimulator u potpunosti izbjegava pravi API pa nema PII ekspozicije.
- Mogu li koristiti ToolSimulator u vlastitom projektu?
- Da, framework je dio Strands Evals platforme AWS-a. Integracija koristi Python dekorator @simulator.tool() za registraciju alata i Pydantic modele za schema enforcement. Developer opisuje što alat radi, a simulator generira realistične odgovore tijekom testa bez ikakvog kontakta s produkcijskim sustavima.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije