🟡 🤝 エージェント 公開日: · 2 分で読めます ·

Amazon Nova Sonic + WebRTC:Kinesis Video Streamsと非同期ツール呼び出しによるリアルタイム音声エージェントがRAG/MCPをサポートします

編集イラスト:WebRTCフローとクラウドシステムへのツール呼び出し矢印を持つ音声エージェント。

Amazon Nova Sonic + WebRTC統合は、2026年5月13日にAWSが発表したリアルタイム音声エージェントアプリケーション向けの新しいアーキテクチャです。音声対音声イベントプロセッサーがKinesis Video Streams WebRTCシグナリングを通じてメディアとテキストデータイベントをオーケストレーションし、サーバー側VADがオーディオトークンを削減します。Nova SonicはMCPサーバー・Strandsエージェント・RAGシステムへの非同期ツール呼び出しをサポートしており、IoTとコネクテッドビークルシナリオが最初のデモンストレーションです。

🤖

この記事はAIにより一次情報源から生成されました。

Amazon Web Servicesは2026年5月13日、Nova Sonicの音声対音声モデルとKinesis Video Streams WebRTCパイプラインを組み合わせたアーキテクチャを発表しました——MCPサーバーとRAGシステムへの非同期ツール呼び出しアプローチを持つリアルタイム音声エージェントアプリケーションの参照ブループリントです。

Nova SonicとWebRTCはどのように責任を分担しますか?

アーキテクチャはWebRTCストリームとNova Sonicモデルの間で「入出力イベントをオーケストレーション」する音声対音声イベントプロセッサーを導入します。通信はメディアイベント(WebRTC経由のオーディオ)とテキストデータ(データチャンネル経由)に分かれます。WebRTCはKinesis Video Streamsシグナリングチャンネルを通じてピアツーピアリンクを確立し、アダプティブビットレートコントロールと前方誤り訂正による双方向の音声/映像伝送を可能にします。

サーバー側VADは何に貢献しますか?

音声アクティビティ検出(VAD)はサーバー側でPythonのWebRTCVADライブラリを使用します。検出はストリームがNova Sonicに到達する前にノイズを抑制し、オーディオトークンボリュームを削減します。このアプローチには2つのメリットがあります:推論コストの削減(トークンが少ない = Bedrockの料金が低い)と、Nova Sonicが長い無音セグメントを処理する必要がないためのレイテンシー改善です。

Nova Sonicは会話中にどのようにツールを呼び出しますか?

Nova Sonicは音声セッション中にMCPサーバー・Strandsエージェント・RAGシステムへの非同期ツール呼び出しをサポートします。ユーザーは音声アシスタントとの会話中に「ガレージの現在の温度は?」と聞くことができ、エージェントはセンサーの読み取り値を返すMCPサーバーを並行して呼び出し、会話を中断しません。音声のレイテンシーバジェット(250〜500ミリ秒)が同期RAGルックアップの一時停止を許さないため、非同期アプローチが不可欠です。

最初のデモンストレーションのユースケースは何ですか?

AWSは2つのシナリオを示しています。スマートホーム:音声コマンドがMQTTプロトコルを通じてIoTデバイスを制御し、Amazon Bedrock Knowledge BaseとMCPサーバーと統合——エージェントはデバイスの状態を把握し制御できます。コネクテッドビークル:リアルタイムドライバー監視が携帯電話使用行動を検出し、音声アシスタントが独立した監視ストリームを通じて安全状態を確認——音声エージェントをエンターテインメントインターフェースではなく安全ツールに変えます。

WebRTCはメディアストリーミングプロトコル(RTMP・RTSP・HLS・MPEG-DASH)の中で最低レイテンシーを提供します——500ミリ秒を超える遅延が会話品質の知覚を低下させる音声エージェントにとって重要です。

よくある質問

Amazon Nova 2 Sonicとは何ですか?
Nova 2 SonicはKinesis Video Streams WebRTCパイプラインと統合されたAmazonの音声対音声モデルです。MCPサーバー・Strandsエージェント・Bedrock Knowledge Base RAGシステムへの非同期ツール呼び出しをサポートし、音声エージェントをマルチモーダルにします。
このアーキテクチャで音声アクティビティ検出はどのように機能しますか?
サーバー側VADはPythonのWebRTCVADライブラリを使用してノイズを抑制し、ストリームがNova Sonicに到達する前にオーディオトークンボリュームを削減します——これにより推論コストを直接削減し、レイテンシーを改善します。