Amazon Nova 2 Sonic: エンドツーエンド遅延500ms以下・音声遅延30ms以下の音声対音声基盤モデル
Amazon Nova 2 Sonicは2026年5月14日にAmazon Bedrockを通じて発表された第2世代の音声対音声基盤モデルです。別個の音声認識・音声合成サービスの必要性を排除し、エンドツーエンド遅延500ms以下、Streamエッジネットワーク経由の音声遅延30ms以下、ネイティブターン検出、割り込みサポート、会話中の関数呼び出しを実現します。Stream Vision Agentsフレームワークが双方向音声ストリーム管理を抽象化します。
この記事はAIにより一次情報源から生成されました。
Amazon Web Servicesは2026年5月14日、Amazon Nova 2 Sonicを発表しました——Amazon Bedrockを通じて提供される第2世代の音声対音声基盤モデルです。新モデルは従来の音声エージェントスタックのパイプラインの複雑さを排除し、自然な人間の会話を可能にするしきい値以下に遅延ベンチマークを押し下げます。
Nova 2 Sonicは音声エージェントアーキテクチャをどう変えますか?
従来の音声エージェントスタックは3つの独立したサービスを使用します:音声認識(STT)、LLM推論、音声合成(TTS)。それぞれが遅延と障害点を追加します。Nova 2 Sonicは音声対音声基盤モデル——入力音声を直接理解して出力音声を生成し、STT/TTSレイヤーを排除します。結果としてエンドツーエンド遅延は「通常500ミリ秒以下」となります。
Amazonが具体的に公表する遅延値は?
Nova 2 Sonicを本番環境に位置づける3つの主要メトリクス:
- エンドツーエンド遅延:通常500ミリ秒以下
- 音声遅延:Streamエッジネットワーク経由で30ミリ秒以下
- ジョイン時間:接続確立時に500ms以下
これらのしきい値により「知覚可能な遅延のない自然な会話フロー」が実現します——会話相手はコミュニケーション品質を低下させる相互停止を感じません。
モデルが提供する機能は?
Nova 2 Sonicは1つのモデルで5つの能力を組み合わせます:
- 理解と推論を備えた音声対音声変換
- 音声境界と中断を識別する音声アクティビティ検出
- ユーザーが自然にエージェントを中断できる割り込みサポート
- API統合とバックエンドアクションのための会話中の関数呼び出し
- 完全な会話履歴を維持するコンテキスト認識
Stream Vision Agentsフレームワークは何を追加しますか?
Stream Vision Agentsフレームワークは双方向音声ストリーム管理の複雑さを抽象化します。従来のリクエスト・レスポンスパターンではなくイベント駆動の双方向ストリーミングAPIを使用し、開発チームが最小限のコードでプロダクショングレードの音声アプリケーションを構築できます。フレームワークは接続管理、ジッターバッファリング、パケットロスリカバリ、アダプティブビットレート圧縮を処理します。
このアプローチは、OpenAIリアルタイムAPI、ElevenLabs Conversational、Google Gemini Liveが主導するリアルタイム音声エージェント領域にAmazonを位置づけます。参入コストはBedrockエコシステムとの統合です——すでにAWS環境にいる顧客にとっては合理的なトレードオフです。
よくある質問
- Nova 2 SonicはNova Sonic 1と何が違いますか?
- Nova 2 Sonicはエンドツーエンド遅延500ms以下(Nova Sonic 1より短縮)、外部VADライブラリ不要のネイティブターン検出、割り込みサポート、会話中の関数呼び出しを備えた新世代基盤モデルです。Nova Sonic 1は同等の機能にStream Vision Agentsフレームワークが必要でした。
- Amazonが具体的に公表している遅延値は?
- エンドツーエンド遅延は通常500ミリ秒以下、Streamエッジネットワーク経由の音声遅延は30ミリ秒以下、接続確立時のジョイン時間は500ms以下——いずれも知覚可能な遅延なしに自然な会話を可能にするしきい値内です。