🟢 🤝 エージェント 2026年4月28日火曜日 · 4 分で読めます

AWSがSageMaker AIモデルとMLflow可観測性を使ったStrands Agentsの構築方法を公開:SageMakerAIModelプロバイダー、自動ログトレース、A/Bテスト変体

SageMakerエンドポイントとMLflowトレーシングがクラウドサービスアーキテクチャを通じてStrands SDKを接続するAIエージェントアーキテクチャのスタイライズされた図。

なぜ重要か

AWSはStrands オープンソースSDK、モデルホスティング用のSageMaker AIエンドポイント、可観測性用のSageMaker AI Serverless MLflowを使ったエージェント構築の詳細なガイドを公開しました。このアプローチはインフラコントロール、カスタムモデルのサポート、mlflow.strands.autolog()による自動化された実行トレースログを提供します。

AWS Machine Learning Blogは、AIエージェントを構築するための3つのコンポーネントを使ったオープンソースStrands Agents SDK、モデルホスティング用のAmazon SageMaker AIエンドポイント、可観測性のためのSageMaker AI Serverless MLflowについての詳細な技術ガイドを公開しました。このガイドは、運用上または規制上の理由からAmazon Bedrockなどのマネージドサービスのみに依存できない組織にとって有用です。

Strands Agentsとは

Strands Agentsは「わずか数行のコードでAIエージェントを構築・実行するモデル駆動アプローチをとるオープンソースSDK」です。アーキテクチャ的に、フレームワークは3つのコンポーネントを組み合わせます:

  • 言語モデル(推論を行うLLM);
  • システムプロンプト(役割と動作の定義);
  • ツールセット(エージェントが呼び出せる関数のリスト)。

このミニマリストなパターンは他のエージェントSDK(LangChain、AutoGen、CrewAI)と似ていますが、モデル駆動の哲学——エージェントが剛性のあるワークフローにコーディングする代わりにモデルに決定を委ねる——が特徴的です。

BedrockではなくSageMakerを選ぶ理由

AWSはブログで、組織がマネージドBedrockサービスの代わりに自己管理SageMakerエンドポイントを選ぶ4つの理由を明示しています:

  • インフラコントロール——コンピューティングインスタンス、VPCネットワーク、セキュリティ設定の管理;
  • モデルの柔軟性——Bedrockカタログに必ずしもないカスタムモデル、ファインチューニングされた変体、オープンソースモデル;
  • コストの予測可能性——リザーブドインスタンスとスポット料金により運用コストの変動係数が低い;
  • 高度なMLOps——モデルレジストリ、A/Bテスト、バージョン管理。

Strands SDKには**SageMakerAIModelプロバイダーが含まれており、エージェントがQwen3**や他のオープンソースLLMが動作するエンドポイントを使用できます。

可観測性レイヤーとしてのMLflow

ガイドが追加する主な価値はSageMaker AI Serverless MLflowとの統合です:

  • 実行トレースの自動記録;
  • ツール使用パターン(どのツールをいつエージェントが呼び出すか);
  • 意思決定ワークフロー(どの推論パスが最終アクションへ至ったか)。

有効化は宣言的——コード内で1回のmlflow.strands.autolog()呼び出し——カスタムインストルメンテーションは不要です。これにより規制フレームワークがますます要求する2つの重要なことが達成されます:

  • 本番環境でのエージェントの行動監視
  • 決定の遡及的分析を可能にする監査トレール

これは特にEU AI法の文脈で関連しており、第12条は自動ログ記録を、第72条は市場後モニタリングを要求しています。

実装フロー:5つのステップ

AWSはブログで5段階のワークフローを説明しています:

  • SageMaker JumpStartを通じてファウンデーションモデルをデプロイ
  • デプロイされたエンドポイントへの参照を使ってSageMakerAIModelでStrands Agentsを作成
  • mlflow.strands.autolog()で自動ログを有効化
  • 並行A/Bテスト用に複数のモデル変体をデプロイ
  • カスタムスコアラーを持つMLflow GenAI評価フレームワークでエージェントを評価

ステップ4(A/Bテスト)は本番開発の文脈で特に有用です——組織はリスクの高い「ビッグバン」移行の代わりに、新しい変体へのプロセスの漸進的移行と品質・コスト差の測定が可能です。

強調されている使用例

AWSは4種類のワークロードにこのアーキテクチャを推奨しています:

  • 厳しいレイテンシー要件のある会話AI——共有マネージドサービスではp99レイテンシーへの制御が不十分な場合;
  • 予測可能なコストを必要とする高ボリュームアプリケーション——マネージドサービスのトークン単価が支配的なコストになる場合;
  • データ居住性要件のあるコンプライアンスに敏感なデプロイ——場所と暗号化の精密な管理が必要な場合;
  • モデル実験——完全移行前の体系的なA/Bテスト。

実践的な意味合い

すでにAWSを使用しているチームが考慮する3つのこと:

  • MLflow統合はオーバーヘッドが低く、大規模なリファクタリングなしに既存のエージェント実装に導入できます;
  • SageMakerAIModelプロバイダーはBedrockカタログ外のローカルや地域のオープンソースモデルへの門戸を開きます。これはデータ居住性を管理したいヨーロッパの組織に関連します;
  • エージェント変体のA/Bテストはデプロイ以上のものが必要です——定義された品質指標(カスタムスコアラー)とトラフィックルーティング戦略が必要です。

ガイドは技術的に密度が高く、すでにSageMakerの経験を持つ実践者向けです。AWS環境でエージェントを始めるチームには、標準アーキテクチャの一つを定義します——Bedrockマネージドサービスの代替としてより多くのコントロールより大きな運用上の責任を持ちます。

🤖

この記事はAIにより一次情報源から生成されました。