AWS Bedrock AgentCore Optimizationがプレビュー公開:OpenTelemetryトレースで本番環境からA/Bテストまでの自動化ループを実現
AWSは2026年5月4日、AgentCore Optimizationをプレビューとして発表しました。本番環境のトレースからシステムプロンプトとツール説明の具体的な改善提案を生成し、テストセットに対するバッチ評価、統計的有意性を伴うA/Bテストを実現する自動化ループです。システムはすべてのモデル呼び出し、ツール呼び出し、推論ステップをOpenTelemetry互換トレースとして収集し、手動による当て推量の修正を本番データに基づく構造化されたサイクルに置き換えます。
この記事はAIにより一次情報源から生成されました。
AWSは2026年5月4日、機械学習ブログにてAmazon Bedrock内の新しいプレビュー機能としてAgentCore Optimizationを発表しました。このシステムの目標は、これまでの標準的な最適化方法であった手動でのプロンプト変更と当て推量なしに、本番環境のエージェントを改善することです。
システムは具体的に何を自動化するか?
AgentCore Optimizationは3つの主要コンポーネントをもたらします:
- Recommendations(レコメンデーション) — 本番トレースと評価結果を分析し、システムプロンプトやツール説明の具体的な変更を提案します。エンジニアが提案を書く必要はなく、システムが実際のデータから生成します。
- Batch evaluation(バッチ評価) — 提案をあらかじめ定義されたテストセットでテストし、変更が提案をトリガーした例だけでなくより広いケースで改善となっているかを確認します。
- A/B testing(A/Bテスト) — 統計的有意性データを伴う旧版と新版エージェント間の対照実験。これにより「主観的に改善した気がする」という拙速なデプロイを回避します。
システムはどのように本番データを収集するか?
AgentCoreのエンドツーエンドのトレーサビリティにより、すべてのモデル呼び出し、ツール呼び出し、推論ステップがOpenTelemetry互換トレースとして記録されます(OpenTelemetry——分散システム監視のためのオープン標準)。すでにOTELをスタックで使用している企業は、追加のインストルメンテーションなしに既存インフラをインポートできます。
結果として、AgentCore Optimizationはエンジニアが手動で作成した合成テストではなく、実際の本番例で動作します。システムは実際の条件下でエージェントがどのようなプロンプトを受け取っているか、どこで失敗するか、そしてその失敗がどのようにツール呼び出しを通じて伝播するかを確認します。
これはエージェントの運用管理に何を変えるか?
2026年、ほとんどのエンタープライズエージェントはPOCと完全な本番環境の間のフェーズで行き詰まっています。理由は、チームがプロンプトの変更が動作にどう影響するかを体系的に測定する方法を持っていないためです。AgentCore Optimizationはまさにそのギャップに対応しています:システムは本番データから学習し、測定可能な効果を持つ変更を提案するデバイスになります。
AWSはブログ記事で投資ブローカー向けのMarket Trends Agentの例を使用していますが、具体的なベンチマーク数値は記載していません。これはプレビューフェーズがアーキテクチャのデモに焦点を当てており、定量化可能な結果の販売を目的としていないことを意味します。
価格は公開されていません。プレビューはAgentCoreが既に利用可能な国のAmazon Bedrockユーザーが利用できます。
よくある質問
- AgentCore Optimizationは何を自動化しますか?
- 3つのことを自動化します:(1)本番トレースと評価結果を分析してシステムプロンプトやツール説明の具体的な変更を提案するRecommendations、(2)事前定義のテストセットに対するBatch evaluation、(3)統計的有意性データを伴う新旧エージェントバージョン間のA/Bテスト。
- 本番トレースはどのように収集されますか?
- AgentCoreのエンドツーエンドのトレーサビリティにより、すべてのモデル呼び出し、ツール呼び出し、推論ステップがOpenTelemetry互換トレースとして記録されます。すでにOTELを使用している開発チームは、追加のインストルメンテーションなしに既存インフラをインポートできます。
- 手動最適化と比較した場合のシステムの主な貢献は何ですか?
- 当て推量を構造に置き換えます:本番データ→提案→デプロイ前の検証。従来のワークフローではエンジニアがトレースを読み、手動でプロンプトを変更し、変更が効くことを願うだけでした——今やそのサイクルは測定可能です。