Wie unterscheidet sich ToolSimulator von klassischen Mocks?

Klassische Mocks geben statisch definierte Antworten zurück — der Entwickler schreibt im Voraus, was die Funktion zurückgeben wird. ToolSimulator verwendet ein LLM, um kontextuell angemessene Antworten spontan zu generieren, und pflegt — was entscheidend ist — den gemeinsamen Zustand über das gesamte Gespräch hinweg: Wenn der Agent in Schritt 1 einen Nutzer erstellt hat, existiert dieser in Schritt 5 noch.

Was ist PII und warum ist es beim Testen von Agenten wichtig?

PII steht für Personally Identifiable Information — personenbezogene Daten wie Namen, Adressen, Steuer-IDs und E-Mails. Das Testen von Agenten auf echten APIs riskiert, PII in Protokollen, Datenbanken oder Analysen preiszugeben. ToolSimulator vermeidet die echte API vollständig, sodass keine PII-Offenlegung stattfindet.

Kann ich ToolSimulator in meinem eigenen Projekt verwenden?

Ja, das Framework ist Teil der Strands Evals-Plattform von AWS. Die Integration verwendet den Python-Dekorator @simulator.tool() zur Registrierung von Tools und Pydantic-Modelle für Schema-Durchsetzung. Der Entwickler beschreibt, was das Tool tut, und der Simulator generiert während des Tests realistische Antworten ohne Kontakt mit Produktionssystemen.

AWS ToolSimulator: KI-Agenten ohne API-Aufrufe testen

Was hat AWS angekündigt?

AWS stellte am 20. April 2026 ToolSimulator vor — ein neues Framework innerhalb der Strands Evals-Plattform, das für das sichere und skalierbare Testen von KI-Agenten ohne Ausführung von Live-API-Aufrufen entwickelt wurde. Das Ziel ist, eines der schmerzhaftesten Probleme beim Aufbau von Produktions-Agenten zu lösen: Wie testet man einen Agenten, der E-Mails sendet, Datenbanken modifiziert oder Flüge bucht, ohne echte Konsequenzen zu verursachen?

Warum sind klassische Mocks unzureichend?

Entwickler verwenden seit Jahrzehnten Mocks — gefälschte Versionen externer Systeme, die vorab definierte Antworten zurückgeben. Das Problem bei Agenten ist, dass sie dynamische, mehrstufige Gespräche führen, bei denen der Systemzustand sich entwickelt. Ein klassischer Mock ist statisch: Er gibt jedes Mal dieselbe Antwort zurück. Er kann nicht sagen: “Sie haben diesen Nutzer in Schritt 1 erstellt, jetzt können Sie ihn in Schritt 5 aktualisieren.”

Das Ergebnis: Mocks sind entweder zu dünn (fehlt Realismus) oder zu teuer in der Pflege (jedes Testszenario erfordert manuelles Kodieren einer Zustandsmaschine).

Wie löst ToolSimulator das Problem?

ToolSimulator verwendet ein LLM im Hintergrund, um Tool-Antworten spontan zu generieren. Die wesentliche Innovation ist der gemeinsame Zustand — der Simulator merkt sich alles, was im Gespräch passiert ist, und stellt sicher, dass zukünftige Antworten konsistent mit der Geschichte sind.

Beispiel: Der Agent ruft in Schritt 2 create_user(name="Ana") auf. In Schritt 7 ruft er list_users() auf — ToolSimulator weiß, dass Ana in der Liste sein muss, weil sie zuvor erstellt wurde. Ohne LLM müsste der Entwickler diesen Zustand manuell kodieren; damit erledigt der Simulator das automatisch.

Wie sieht die Integration aus?

Die technische Integration ist deklarativ und unkompliziert:

@simulator.tool()-Dekorator — der Entwickler markiert eine Python-Funktion als Tool, das dem Agenten zur Verfügung steht. Der Simulator erfasst automatisch Signatur und Docstring.
Pydantic-Modelle — werden für die Schema-Durchsetzung verwendet. Was bedeutet das? Pydantic prüft, ob Argumente und Rückgabewerte die richtigen Typen haben — sendet der Agent einen String statt einer Zahl, schlägt der Test an dieser Stelle fehl, bevor das LLM eine Antwort generiert.

Der Entwickler schreibt eine Beschreibung des Tools, nicht die Implementierung — ToolSimulator übernimmt den Rest.

Warum ist der PII-Schutz wichtig?

PII (Personally Identifiable Information) bedeutet personenbezogene Daten — Namen, Steuer-IDs, Adressen, Telefonnummern, E-Mail-Adressen.

Das Testen von Agenten auf echten APIs bedeutet, dass PII in Protokolle, Staging-Datenbanken und Analysen gelangt. Das ist ein regulatorisches Problem (DSGVO in der EU, HIPAA in den USA) und ein praktisches Problem (Durchsickern aus der Staging-Umgebung in die Öffentlichkeit).

ToolSimulator ruft nie die echte API auf, sodass es keine PII-Quelle gibt — die Simulation generiert synthetische Daten, die realistisch aussehen, aber nicht mit echten Personen verbunden sind.

Wem nützt das?

Jedem Team, das Agenten mit Tool Use aufbaut. Von Startups, die MVP-Agenten testen, bis zu großen Organisationen, die Produktions-Deployments validieren. Besonders nützlich für:

Unit-Tests — Isolierung einer Agenteninteraktion mit einem Tool
End-to-End-Tests — vollständige Workflows mit mehreren Tools und Schritten
Regressionstests — Überprüfung, ob sich ein neues Modell wie das alte verhält

Fazit

ToolSimulator ist eine konkrete Antwort auf ein reales Problem: Produktions-Agenten müssen getestet werden, und das Testen auf Live-Systemen ist teuer, langsam und riskant. AWS signalisiert damit, dass Agenten-Beobachtbarkeit und Testbarkeit zu erstklassigen Bestandteilen der Cloud-Infrastruktur werden — nicht nur zu optionalen Zusatzfunktionen. Die Integration mit Strands Evals gibt der Plattform einen vollständigen Stack — von der Entwicklung über die Simulation bis zur Evaluierung.

AWS ToolSimulator: KI-gesteuertes Testen von KI-Agenten ohne Live-API-Aufrufe — Gemeinsamer Zustand über Mehrfach-Gespräche