🟡 🤝 智能体 2026年5月5日星期二 · 2 分钟阅读 ·

AWS Bedrock AgentCore Optimization进入预览:从生产追踪到A/B测试的自动化循环,基于OpenTelemetry追踪

编辑插图:围绕AI智能体的生产、评估和A/B测试闭环,优化的象征

AWS于2026年5月4日发布了AgentCore Optimization预览版——这是一个自动化循环,可从生产追踪中生成系统提示词和工具描述的具体改进建议、针对测试集的批量评估,以及具有统计显著性的A/B测试。该系统收集每次模型调用、工具调用和推理步骤的OpenTelemetry兼容追踪,将手动猜测修改替换为基于生产数据的结构化优化周期。

🤖

本文由人工智能基于一手来源生成。

AWS于2026年5月4日在其机器学习博客上将AgentCore Optimization作为Amazon Bedrock中的新预览功能发布。该系统的目标是在不依赖手动修改提示词和猜测的情况下改善生产中的智能体——而猜测迄今为止一直是标准的优化方式。

系统具体自动化了什么?

AgentCore Optimization带来三个关键组件:

  1. Recommendations(建议) — 分析生产追踪和评估结果,提出对系统提示词或工具描述的具体修改建议。工程师无需撰写建议;系统从真实数据中生成。
  2. Batch evaluation(批量评估) — 针对预定义的测试集测试建议,验证这些变更是否在更广泛的场景下有所改善,而不仅仅是针对触发建议的示例。
  3. A/B testing(A/B测试) — 新旧版本智能体之间的对照实验,带有统计显著性数据,避免仓促的「主观感觉更好」式部署。

系统如何从生产环境收集数据?

AgentCore中的端到端可追溯性将每次模型调用、工具调用和推理步骤记录为OpenTelemetry兼容的追踪(OpenTelemetry——分布式系统追踪的开放标准)。已在其技术栈中使用OTEL的企业可以导入现有基础设施,无需额外的仪器配置。

其结果是AgentCore Optimization在真实生产示例上运行,而非工程师手动构建的合成测试。系统可以看到智能体在真实条件下接收到哪些提示词、在哪里出错,以及错误如何通过工具调用传播。

这改变了智能体的运营管理什么?

2026年,大多数企业智能体卡在POC阶段和完整生产之间。原因是团队没有系统的方法来衡量提示词变更如何影响行为。AgentCore Optimization正是解决这一差距:该系统成为从生产数据中学习并提出具有可测量效果的修改建议的装置。

AWS在博客文章中使用了面向投资经纪商的市场趋势智能体示例,但未提供具体的基准数字。这意味着预览阶段专注于展示架构,而非销售可量化的结果。

价格尚未公开。预览版可供已可使用AgentCore的国家/地区中的Amazon Bedrock用户使用。

常见问题

AgentCore Optimization自动化了什么?
三件事:(1)分析生产追踪和评估结果以提出系统提示词或工具描述修改建议的Recommendations;(2)针对预定义测试集的Batch evaluation;(3)带有统计显著性数据的A/B测试,用于比较新旧版本智能体。
如何收集生产追踪数据?
通过AgentCore的端到端可追溯性,将每次模型调用、工具调用和推理步骤记录为OpenTelemetry兼容的追踪。已使用OTEL基础设施的开发团队可以直接导入现有基础设施,无需额外的仪器配置。
与手动优化相比,该系统的主要贡献是什么?
用结构化替代猜测:生产数据→建议→部署前验证。以往的工作流程要求工程师阅读追踪日志、手动修改提示词并期待有效——现在这个循环是可测量的。