🤖 24 AI
🟢 🤝 智能体 2026年4月21日星期二 · 2 分钟阅读

AWS ToolSimulator:LLM驱动的AI代理测试框架,无需实际API调用,跨多轮对话维护共享状态

Editorialna ilustracija: AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz

为什么重要

AWS推出了ToolSimulator,这是Strands Evals平台内一个LLM驱动的框架,用于在不进行实际API调用的情况下安全测试AI代理。模拟器在多轮对话中维护一致的共享状态,并生成上下文适当的响应,允许测试发送邮件或修改数据库的代理,而不产生实际后果。

AWS发布了什么?

AWS于2026年4月20日推出了ToolSimulator——Strands Evals平台内的全新框架,专为安全、可扩展地测试AI代理而设计,无需执行实际API调用。目标是解决构建生产代理中最棘手的问题之一:如何测试发送邮件、修改数据库或预订航班的代理,而不产生实际后果。

为何传统模拟不够用?

开发者几十年来一直使用模拟——返回预定义响应的外部系统假版本。代理的问题在于它们进行动态的多轮对话,其中系统状态不断演变。传统模拟是静态的:每次都返回相同的响应。它无法说”你在第1步创建了这个用户,现在在第5步可以更新它”。

结果是:模拟要么太薄(不够真实),要么维护成本太高(每个测试场景都需要手动编码状态机)。

ToolSimulator如何解决这个问题?

ToolSimulator在底层使用LLM即时生成工具响应。关键创新是共享状态——模拟器记住对话中发生的所有事情,并确保未来的响应与历史保持一致

示例:代理在第2步调用 create_user(name="Ana")。在第7步调用 list_users() 时——ToolSimulator知道Ana必须在列表中,因为她之前被创建了。没有LLM,开发者就必须手动编码该状态;有了它,模拟器会自动处理。

集成是什么样的?

技术集成是声明式且简单的:

  • @simulator.tool() 装饰器 — 开发者将Python函数标记为代理可用的工具。模拟器自动获取签名和文档字符串。
  • Pydantic模型 — 用于模式强制执行。Pydantic验证参数和返回值具有正确的类型——如果代理发送字符串而非数字,测试在LLM生成响应之前就会失败。

因此开发者只需编写工具描述,而不是实现——ToolSimulator处理其余部分。

为何PII保护很重要?

定义:PII(个人身份信息)是指个人可识别数据——姓名、身份证号、地址、电话号码、电子邮件地址。

在真实API上测试代理意味着PII泄漏到日志、暂存数据库和分析中。这是监管问题(欧盟GDPR、美国HIPAA)和实际问题(从暂存环境泄漏到公共环境)。

ToolSimulator从不调用真实API,因此没有PII来源——模拟生成看起来真实但与真实人员无关的合成数据。

谁能从中受益?

任何构建具有工具使用功能的代理的团队。从测试MVP代理的初创公司到验证生产部署的大型组织。特别适用于:

  • 单元测试 — 隔离代理与单个工具的一次交互
  • 端到端测试 — 具有多个工具和步骤的完整工作流
  • 回归测试 — 验证新模型与旧模型行为相同

结论

ToolSimulator是对实际问题的具体回应:生产代理需要测试,而在实时系统上测试成本高、速度慢且有风险。AWS此举表明代理可观测性和可测试性正在成为云基础设施中的一等公民,而不仅仅是可选的附加功能。与Strands Evals的集成为平台提供了完整的堆栈——从开发到模拟再到评估。

🤖

本文由人工智能基于一手来源生成。