NVIDIA NemotronとOpenAI GPT OSSモデルがFedRAMP High認定でAWS GovCloudに登場
AWS GovCloud(US)がAmazon Bedrockに6つの新モデルを追加した。OpenAIのオープンウェイトgpt-oss-120bとgpt-oss-20b、および1Mトークンコンテキストを持つ4つのNVIDIA Nemotronモデルだ。インフラはFedRAMP High、DoD IL 2/4/5、ITAR、CJISの要件を満たし、ゼロオペレーターアクセス設計となっている。
この記事はAIにより一次情報源から生成されました。
Amazon Web ServicesはAWS GovCloud(US)地域のAmazon Bedrockのモデルラインアップを6つの新モデルで拡充した。小規模な特化型から大規模な汎用システムまでをカバーし、すべて米国公共部門が要求するインフラ保証を伴う。
利用可能なモデルは?
OpenAI GPT OSSシリーズは2つのモデルを提供する。gpt-oss-120bは1,200億パラメーターモデルで、本番対応の汎用および要求度の高い推論タスク向けに設計され、128Kトークンのコンテキストウィンドウと最大16Kトークンの出力を持つ。gpt-oss-20bは低レイテンシーと特化したユースケース向けに最適化されたコンパクトな変種だ。重要な点として、これらのモデルはGPT-4でもChatGPTでもない——独立したデプロイメントのために配布されたOpenAIのオープンウェイトモデルだ。
NVIDIA Nemotronシリーズは4つのモデルを提供する。Nemotron 3 Super 120BはハイブリッドMixture-of-Expertsアーキテクチャで、合計1,200億パラメーターを持つが、各トークン処理時にはわずか120億個のみをアクティブにし、モデルの能力と計算効率のバランスを取る。重要な特徴は100万トークンコンテキストウィンドウで、コンテキストを切ることなく法的コーパス全体、技術マニュアル、または長期的な会話アーカイブを処理するエージェントの可能性を開く。Nanoバリアント(9B v2、12B v2、30B)は軽量タスクとエッジデプロイメントシナリオをカバーする。
GovCloudの特徴
AWS GovCloud(US)は単に物理的に分離された地域ではない——米国公共部門の特定の規制要件を満たす分離されたインフラだ。
この統合がカバーする認定セットには以下が含まれる。クラウドサービスの最高レベルの連邦認可であるProvisional Authority to Operate(P-ATO)付きのFedRAMP High、管理された機密情報と重要な国家安全保障システムをカバーするDoD Cloud Security Requirements Guide Impact Levels 2、4、5、防衛産業向けのITAR(International Traffic in Arms Regulations)、法執行機関向けのCJIS(Criminal Justice Information Services)。
ゼロオペレーターアクセス
このような環境の中心的なアーキテクチャ要件は推論リクエストの保証されたプライバシーだ。AWSのゼロオペレーターアクセス設計は、推論エンジンがプロンプトやレスポンスのアクセス可能なトレースを残さないことを意味する——AWSエンジニア、顧客、またはモデルベンダー(OpenAIまたはNVIDIA)を含む誰も会話の内容を再構築できない。
この保証は選択した価格ティアやAPIパスに関わらず適用される。
デュアルAPI
なぜ2つのパスが存在するか?
GovCloudのBedrockはモデルとの通信に2つの方法を提供し、それぞれ異なるトレードオフを持つ。
**bedrock-mantle**はChat CompletionsとResponses APIを実装するOpenAI互換のHTTPSエンドポイントだ。OpenAIのPythonまたはTypeScript SDKですでに書かれたコードは変更なしに動作する——変更はエンドポイントURLだけだ。ツール呼び出しとストリーミングがサポートされており、OpenAIエコシステム上に構築されたエージェントの移行はアーキテクチャ上の変更を必要としない。
bedrock-runtimeはBedrock固有の機能にアクセスできるネイティブAWS SDKパスだ。コンテンツフィルタリングとセキュリティポリシー適用のためのGuardrails、およびベンダーに関わらず統一された呼び出しですべてのBedrockモデルへのインターフェースを正規化するConverse APIが含まれる。
価格ティアとデータレジデンシー
モデルは3つのティアで利用可能だ。Standard(オンデマンド、トークンごとの課金)、Priority(レイテンシー敏感なトラフィック向け)、Flex(低コストのバッチ処理)。Reservedティアは現在GovCloud地域では利用できない。
データレジデンシーには2つのオプションがある。In-Regionルーティングはすべてのリクエストをus-gov-west-1内に保持する。Geo Cross-Regionルーティングは可用性のためにus-gov-west-1とus-gov-east-1間でルーティングできるが、AWS GovCloud境界内のみ——データがGovCloudの境界を出ることはない。
公共部門へのコンテキスト
FedRAMP High環境での100万トークンコンテキストウィンドウを持つNemotron 3 Super 120Bのような利用可能なモデルは、長い文書の法的分析、医療記録、またはセキュリティ上の機密性を持つアプリケーションでの長期的な会話メモリなどのシナリオに特に関連している——これまでのコンテキスト制限は技術的な問題ではなく、認定モデルの不在という規制上の障壁だったユースケースだ。
よくある質問
- GPT OSSモデルはChatGPTやGPT-4と同じか?
- いいえ。GPT OSSはOpenAIのインフラ外でのデプロイメント向けのOpenAIのオープンウェイトモデルだ。gpt-oss-120bとgpt-oss-20bはGPT-4やChatGPTのモデルと同一ではない。
- GovCloudにおけるゼロオペレーターアクセス設計はどういう意味か?
- AWS、ユーザー、モデルベンダーを含む誰も——GovCloud地域のBedrock推論エンジンを通過するプロンプトやレスポンスにアクセスできない。
- bedrock-mantleエンドポイントはどのAPI標準をサポートするか?
- bedrock-mantleはOpenAI Chat CompletionsとResponses APIを実装しており、OpenAIのPythonまたはTypeScript SDKで書かれたコードがエンドポイントURLを変更するだけで変更なしに動作する。