🟡 🔧 ハードウェア 公開日: · 2 分で読めます ·

NVIDIA: Fleet Intelligence——大規模 GPU フリートの暗号学的整合性検証付きリアルタイム監視

Editorial illustration: Fleet Intelligence——大規模 GPU フリートの暗号学的整合性検証付きリアルタイム監視

NVIDIA Fleet Intelligence は、大規模な NVIDIA データセンター GPU フリートをリアルタイムで監視するマネージドサービスです——電力・温度・パフォーマンス・ECC エラーを監視し、NVIDIA Remote Attestation Service による GPU の暗号学的真正性確認を行います。Vera Rubin・Blackwell・Hopper GPU の所有者は無料で利用できます。

🤖

この記事はAIにより一次情報源から生成されました。

NVIDIA が Fleet Intelligence を発表しました。大規模 GPU フリートをリアルタイムで監視するマネージドサービスです。サービスは 5 つの主要監視領域をカバーします:電力利用率とスロットリング、温度と熱問題、パフォーマンスとボトルネック、ハードウェアの健全性(ECC エラー・退役ページ・NVLink 異常)、設定の一貫性。

暗号学的整合性証明

従来の GPU 監視スタックとの最も重要な違いは、NVIDIA Confidential Computing 技術による GPU の暗号学的真正性検証です。ローカルエージェントがランタイム測定値——ファームウェアのダイジェスト・設定・状態——を取得し、GPU がハードウェアキーでデジタル署名します。署名はその後 **NVIDIA Remote Attestation Service(NRAS)**を通じて検証され、GPU が既知の変更されていない状態にある本物の NVIDIA ハードウェアであることを証明します。

マルチテナント推論やコンフィデンシャル ML トレーニングを実行する組織にとって、これは植え付けられたまたは改ざんされたハードウェアに基づく攻撃の一類型全体を排除します。

技術とデプロイメント

システムは軽量なホストベースエージェントを使用し、GPU テレメトリを NVIDIA のクラウドサービスにストリーミングします。エージェントはオープンソースで、発表文によると「NVIDIA のポートフォリオ全体の技術と IP を活用」しており、GPUdDCGMAttestation SDK を含みます。オープンソースコードにより監査と透明性が確保され、セキュリティチームによるデプロイメント承認に重要です。

インストールは Linux パッケージマネージャーまたは Kubernetes クラスター内の GPU ワーカーノードへの Helm chart を通じて行います。

誰が利用でき、費用はいくらですか?

サービスは現在 GA(一般提供)で、NVIDIA データセンター GPU 所有者は無料で利用できます。対応アーキテクチャは 3 つ:Vera RubinBlackwellHopper——完全な Attestation 機能は Vera Rubin と Blackwell のみに限定(Hopper は必要なファームウェアパスがありません)。コンシューマー向け RTX ラインは含まれていません。

実際には、数千の GPU を持つハイパースケーラーおよびエンタープライズクライアントが、購入した GPU に加えて追加ライセンスなしに単一管理画面での監視とハードウェア署名付き整合性検証を得られることを意味します。

よくある質問

GPU の暗号学的整合性検証とは何ですか?
Fleet Intelligence エージェントがランタイム測定値(ファームウェアのダイジェスト・設定・状態)を取得し、GPU がハードウェアキーでデジタル署名します。署名は NVIDIA Remote Attestation Service(NRAS)を通じて検証され、GPU が既知の状態にある本物の NVIDIA ハードウェアであることを証明します——コンフィデンシャルコンピューティングのシナリオで重要です。
どの GPU アーキテクチャがサポートされていますか?
Vera Rubin・Blackwell・Hopper データセンター GPU がサポートされています。Attestation 機能は Vera Rubin と Blackwell のみに限定されます(Hopper は必要なファームウェアパスがありません)。コンシューマー向け RTX ラインはサポートされていません。
エージェントはどのようにインストールしますか?
標準的な Linux パッケージマネージャーを通じて、または Kubernetes の GPU ワーカーノード上への Helm chart 経由でインストールします。エージェントはオープンソースで、GPUd・DCGM・Attestation SDK の技術を使用し、NVIDIA のクラウドサービスにテレメトリをストリーミングします。