NVIDIA: Fleet Intelligence — verwaltete Überwachung großer GPU-Flotten mit kryptografischer Integritätsprüfung
NVIDIA Fleet Intelligence ist ein verwalteter Dienst, der große Flotten von NVIDIA-Rechenzentrum-GPUs in Echtzeit überwacht — Leistungsaufnahme, Temperatur, Performance und ECC-Fehler — mit kryptografischer GPU-Authentizitätsprüfung über den NVIDIA Remote Attestation Service. Der Dienst ist kostenlos für Besitzer von Vera-Rubin-, Blackwell- und Hopper-GPUs.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
NVIDIA hat Fleet Intelligence angekündigt, einen verwalteten Dienst zur Echtzeit-Überwachung großer GPU-Flotten. Der Dienst deckt fünf Schlüsselbereiche der Überwachung ab: Leistungsaufnahme und Throttling, Temperatur und Wärmeprobleme, Performance und Engpässe, Hardware-Gesundheit (ECC-Fehler, ausgemusterte Seiten, NVLink-Anomalien) sowie Konfigurationskonsistenz.
Kryptografische Integritätsattestierung
Der wichtigste Unterschied zu klassischen GPU-Monitoring-Stacks ist die kryptografische Authentizitätsprüfung von GPUs durch NVIDIAs Confidential-Computing-Technologie. Ein lokaler Agent erfasst Laufzeitmessungen — Firmware-Digests, Konfigurationen und Zustände — die die GPU mit ihrem Hardware-Schlüssel digital signiert. Die Signatur wird dann über den NVIDIA Remote Attestation Service (NRAS) verifiziert, was beweist, dass die GPU authentische NVIDIA-Hardware in einem bekannten, unveränderten Zustand ist.
Für Organisationen, die Multi-Tenant-Inferenz oder vertrauliches ML-Training betreiben, eliminiert dies eine ganze Klasse von Angriffen, die auf untergeschobener oder modifizierter Hardware basieren.
Technologie und Deployment
Das System verwendet einen leichtgewichtigen hostbasierten Agenten, der GPU-Telemetrie an NVIDIAs Cloud-Dienst streamt. Der Agent ist Open-Source und nutzt, wie in der Ankündigung steht, „Technologie und geistiges Eigentum aus dem gesamten NVIDIA-Portfolio”, einschließlich GPUd, DCGM und dem Attestation SDK. Der offene Quellcode ermöglicht Prüfung und Transparenz — entscheidend dafür, dass Sicherheitsteams einem Deployment zustimmen.
Die Installation erfolgt über Linux-Paketmanager oder ein Helm-Chart auf GPU-Worker-Knoten in Kubernetes-Clustern.
Wer kann es nutzen und was kostet es?
Der Dienst ist jetzt allgemein verfügbar und kostenlos für Besitzer von NVIDIA-Rechenzentrum-GPUs. Drei Architekturen werden unterstützt: Vera Rubin, Blackwell und Hopper — wobei die vollständige Attestierungsfunktion auf Vera Rubin und Blackwell beschränkt ist (Hopper fehlt der erforderliche Firmware-Pfad). Die Consumer-RTX-Linie ist nicht eingeschlossen.
Praktisch bedeutet das, dass Hyperscaler und Enterprise-Kunden mit Tausenden von GPUs eine einheitliche Überwachungsoberfläche und hardwaresignierte Integritätsprüfung erhalten — ohne zusätzliche Lizenzkosten über die bereits gekauften GPUs hinaus.
Häufig gestellte Fragen
- Was ist kryptografische GPU-Integritätsprüfung?
- Der Fleet-Intelligence-Agent erfasst Laufzeitmessungen — Firmware-Digests, Konfigurationen und Zustände — die die GPU mit ihrem Hardware-Schlüssel digital signiert. Die Signatur wird über den NVIDIA Remote Attestation Service (NRAS) verifiziert, was beweist, dass die GPU authentische NVIDIA-Hardware in einem bekannten Zustand ist — wichtig für Confidential-Computing-Szenarien.
- Welche GPU-Architekturen werden unterstützt?
- Der Dienst unterstützt Vera Rubin, Blackwell und Hopper Rechenzentrum-GPUs. Die Attestierungsfunktion ist auf Vera Rubin und Blackwell beschränkt (Hopper fehlt der erforderliche Firmware-Pfad). Die Consumer-RTX-GPU-Linie wird nicht unterstützt.
- Wie wird der Agent installiert?
- Die Installation erfolgt über Standard-Linux-Paketmanager oder ein Helm-Chart für Kubernetes-Deployments auf GPU-Worker-Knoten. Der Agent ist Open-Source, nutzt Technologie aus GPUd, DCGM und dem Attestation SDK und streamt Telemetrie an NVIDIAs Cloud-Dienst.
Verwandte Nachrichten
AMD: Gluon Block-Level-Modell ermöglicht GEMM-Kernels mit 5,255 TFLOPS MXFP4 auf Instinct MI355
AMD: ROCm 7.13 bringt MI350P-GPU, Multi-VF-Virtualisierung und TheRock-Paketierung
AMD ROCm: BubbleFence partitioniert Video-Streams mit Embeddings aus Vision-Foundation-Modellen statt Metadaten-Heuristiken