NVIDIA:Fleet Intelligence——大规模 GPU 集群实时管理监控与加密完整性验证
NVIDIA Fleet Intelligence 是一项托管服务,可实时监控大型 NVIDIA 数据中心 GPU 机群——包括功耗、温度、性能和 ECC 错误——并通过 NVIDIA 远程证明服务(NRAS)进行加密 GPU 真实性验证。该服务对 Vera Rubin、Blackwell 和 Hopper GPU 所有者免费。
本文由人工智能基于一手来源生成。
NVIDIA 发布了 Fleet Intelligence,这是一项用于实时监控大型 GPU 机群的托管服务。该服务涵盖五个关键监控领域:功耗利用率和降频、温度和热问题、性能和瓶颈、硬件健康状况(ECC 错误、退役页面、NVLink 异常)以及配置一致性。
加密完整性证明
与传统 GPU 监控技术栈最重要的区别在于通过 NVIDIA Confidential Computing 技术进行的 GPU 加密真实性验证。本地代理获取运行时测量值——固件摘要、配置和状态——GPU 用其硬件密钥对其进行数字签名。签名随后通过 **NVIDIA 远程证明服务(NRAS)**验证,证明 GPU 是处于已知、未修改状态的真实 NVIDIA 硬件。
对于运行多租户推理或机密 ML 训练的组织而言,这消除了基于植入或修改硬件的整类攻击。
技术与部署
系统使用轻量级基于主机的代理,将 GPU 遥测数据流式传输到 NVIDIA 的云服务。代理是开源的,正如公告所述,「采用 NVIDIA 整个产品组合的技术和 IP」,包括 GPUd、DCGM 和 Attestation SDK。开源代码支持安全团队的审计和透明度验证——这对部署许可至关重要。
安装通过 Linux 包管理器或 Kubernetes 集群 GPU 工作节点上的 Helm chart 进行。
谁可以使用,费用如何?
该服务现已正式发布,对 NVIDIA 数据中心 GPU 所有者免费。支持三种架构:Vera Rubin、Blackwell 和 Hopper——其中完整证明功能仅限于 Vera Rubin 和 Blackwell(Hopper 没有所需的固件路径)。消费级 RTX 系列不在范围内。
实际上,这意味着拥有数千个 GPU 的超大规模云厂商和企业客户将获得单一管理界面监控和硬件签名完整性验证——无需在购买 GPU 之外支付额外许可费用。
常见问题
- 什么是 GPU 加密完整性验证?
- Fleet Intelligence 代理获取运行时测量值(固件摘要、配置、状态),GPU 用其硬件密钥对其进行数字签名。签名通过 NVIDIA 远程证明服务(NRAS)验证,证明 GPU 是处于已知状态的真实 NVIDIA 硬件——对机密计算场景很重要。
- 支持哪些 GPU 架构?
- 服务支持 Vera Rubin、Blackwell 和 Hopper 数据中心 GPU。证明功能仅限于 Vera Rubin 和 Blackwell(Hopper 没有所需的固件路径)。客户端/消费级 RTX 系列不受支持。
- 如何安装代理?
- 通过标准 Linux 包管理器安装,或通过 Helm chart 在 Kubernetes GPU 工作节点上部署。代理是开源的,采用 GPUd、DCGM 和 Attestation SDK 技术,将遥测数据流式传输到 NVIDIA 的云服务。