NVIDIA: Fleet Intelligence——大規模 GPU フリートの暗号学的整合性検証付きリアルタイム監視
NVIDIA Fleet Intelligence は、大規模な NVIDIA データセンター GPU フリートをリアルタイムで監視するマネージドサービスです——電力・温度・パフォーマンス・ECC エラーを監視し、NVIDIA Remote Attestation Service による GPU の暗号学的真正性確認を行います。Vera Rubin・Blackwell・Hopper GPU の所有者は無料で利用できます。
この記事はAIにより一次情報源から生成されました。
NVIDIA が Fleet Intelligence を発表しました。大規模 GPU フリートをリアルタイムで監視するマネージドサービスです。サービスは 5 つの主要監視領域をカバーします:電力利用率とスロットリング、温度と熱問題、パフォーマンスとボトルネック、ハードウェアの健全性(ECC エラー・退役ページ・NVLink 異常)、設定の一貫性。
暗号学的整合性証明
従来の GPU 監視スタックとの最も重要な違いは、NVIDIA Confidential Computing 技術による GPU の暗号学的真正性検証です。ローカルエージェントがランタイム測定値——ファームウェアのダイジェスト・設定・状態——を取得し、GPU がハードウェアキーでデジタル署名します。署名はその後 **NVIDIA Remote Attestation Service(NRAS)**を通じて検証され、GPU が既知の変更されていない状態にある本物の NVIDIA ハードウェアであることを証明します。
マルチテナント推論やコンフィデンシャル ML トレーニングを実行する組織にとって、これは植え付けられたまたは改ざんされたハードウェアに基づく攻撃の一類型全体を排除します。
技術とデプロイメント
システムは軽量なホストベースエージェントを使用し、GPU テレメトリを NVIDIA のクラウドサービスにストリーミングします。エージェントはオープンソースで、発表文によると「NVIDIA のポートフォリオ全体の技術と IP を活用」しており、GPUd・DCGM・Attestation SDK を含みます。オープンソースコードにより監査と透明性が確保され、セキュリティチームによるデプロイメント承認に重要です。
インストールは Linux パッケージマネージャーまたは Kubernetes クラスター内の GPU ワーカーノードへの Helm chart を通じて行います。
誰が利用でき、費用はいくらですか?
サービスは現在 GA(一般提供)で、NVIDIA データセンター GPU 所有者は無料で利用できます。対応アーキテクチャは 3 つ:Vera Rubin・Blackwell・Hopper——完全な Attestation 機能は Vera Rubin と Blackwell のみに限定(Hopper は必要なファームウェアパスがありません)。コンシューマー向け RTX ラインは含まれていません。
実際には、数千の GPU を持つハイパースケーラーおよびエンタープライズクライアントが、購入した GPU に加えて追加ライセンスなしに単一管理画面での監視とハードウェア署名付き整合性検証を得られることを意味します。
よくある質問
- GPU の暗号学的整合性検証とは何ですか?
- Fleet Intelligence エージェントがランタイム測定値(ファームウェアのダイジェスト・設定・状態)を取得し、GPU がハードウェアキーでデジタル署名します。署名は NVIDIA Remote Attestation Service(NRAS)を通じて検証され、GPU が既知の状態にある本物の NVIDIA ハードウェアであることを証明します——コンフィデンシャルコンピューティングのシナリオで重要です。
- どの GPU アーキテクチャがサポートされていますか?
- Vera Rubin・Blackwell・Hopper データセンター GPU がサポートされています。Attestation 機能は Vera Rubin と Blackwell のみに限定されます(Hopper は必要なファームウェアパスがありません)。コンシューマー向け RTX ラインはサポートされていません。
- エージェントはどのようにインストールしますか?
- 標準的な Linux パッケージマネージャーを通じて、または Kubernetes の GPU ワーカーノード上への Helm chart 経由でインストールします。エージェントはオープンソースで、GPUd・DCGM・Attestation SDK の技術を使用し、NVIDIA のクラウドサービスにテレメトリをストリーミングします。