NVIDIA Fleet Intelligence: GPU-Überwachung mit Attestierung

NVIDIA Fleet Intelligence ist ein verwalteter Dienst, der große Flotten von NVIDIA-Rechenzentrum-GPUs in Echtzeit überwacht — Leistungsaufnahme, Temperatur, Performance und ECC-Fehler — mit kryptografischer GPU-Authentizitätsprüfung über den NVIDIA Remote Attestation Service. Der Dienst ist kostenlos für Besitzer von Vera-Rubin-, Blackwell- und Hopper-GPUs.

NVIDIA hat Fleet Intelligence angekündigt, einen verwalteten Dienst zur Echtzeit-Überwachung großer GPU-Flotten. Der Dienst deckt fünf Schlüsselbereiche der Überwachung ab: Leistungsaufnahme und Throttling, Temperatur und Wärmeprobleme, Performance und Engpässe, Hardware-Gesundheit (ECC-Fehler, ausgemusterte Seiten, NVLink-Anomalien) sowie Konfigurationskonsistenz.

Kryptografische Integritätsattestierung

Der wichtigste Unterschied zu klassischen GPU-Monitoring-Stacks ist die kryptografische Authentizitätsprüfung von GPUs durch NVIDIAs Confidential-Computing-Technologie. Ein lokaler Agent erfasst Laufzeitmessungen — Firmware-Digests, Konfigurationen und Zustände — die die GPU mit ihrem Hardware-Schlüssel digital signiert. Die Signatur wird dann über den NVIDIA Remote Attestation Service (NRAS) verifiziert, was beweist, dass die GPU authentische NVIDIA-Hardware in einem bekannten, unveränderten Zustand ist.

Für Organisationen, die Multi-Tenant-Inferenz oder vertrauliches ML-Training betreiben, eliminiert dies eine ganze Klasse von Angriffen, die auf untergeschobener oder modifizierter Hardware basieren.

Technologie und Deployment

Das System verwendet einen leichtgewichtigen hostbasierten Agenten, der GPU-Telemetrie an NVIDIAs Cloud-Dienst streamt. Der Agent ist Open-Source und nutzt, wie in der Ankündigung steht, „Technologie und geistiges Eigentum aus dem gesamten NVIDIA-Portfolio”, einschließlich GPUd, DCGM und dem Attestation SDK. Der offene Quellcode ermöglicht Prüfung und Transparenz — entscheidend dafür, dass Sicherheitsteams einem Deployment zustimmen.

Die Installation erfolgt über Linux-Paketmanager oder ein Helm-Chart auf GPU-Worker-Knoten in Kubernetes-Clustern.

Wer kann es nutzen und was kostet es?

Der Dienst ist jetzt allgemein verfügbar und kostenlos für Besitzer von NVIDIA-Rechenzentrum-GPUs. Drei Architekturen werden unterstützt: Vera Rubin, Blackwell und Hopper — wobei die vollständige Attestierungsfunktion auf Vera Rubin und Blackwell beschränkt ist (Hopper fehlt der erforderliche Firmware-Pfad). Die Consumer-RTX-Linie ist nicht eingeschlossen.

Praktisch bedeutet das, dass Hyperscaler und Enterprise-Kunden mit Tausenden von GPUs eine einheitliche Überwachungsoberfläche und hardwaresignierte Integritätsprüfung erhalten — ohne zusätzliche Lizenzkosten über die bereits gekauften GPUs hinaus.

Häufig gestellte Fragen

Was ist kryptografische GPU-Integritätsprüfung?

Der Fleet-Intelligence-Agent erfasst Laufzeitmessungen — Firmware-Digests, Konfigurationen und Zustände — die die GPU mit ihrem Hardware-Schlüssel digital signiert. Die Signatur wird über den NVIDIA Remote Attestation Service (NRAS) verifiziert, was beweist, dass die GPU authentische NVIDIA-Hardware in einem bekannten Zustand ist — wichtig für Confidential-Computing-Szenarien.

Welche GPU-Architekturen werden unterstützt?

Der Dienst unterstützt Vera Rubin, Blackwell und Hopper Rechenzentrum-GPUs. Die Attestierungsfunktion ist auf Vera Rubin und Blackwell beschränkt (Hopper fehlt der erforderliche Firmware-Pfad). Die Consumer-RTX-GPU-Linie wird nicht unterstützt.

Wie wird der Agent installiert?

Die Installation erfolgt über Standard-Linux-Paketmanager oder ein Helm-Chart für Kubernetes-Deployments auf GPU-Worker-Knoten. Der Agent ist Open-Source, nutzt Technologie aus GPUd, DCGM und dem Attestation SDK und streamt Telemetrie an NVIDIAs Cloud-Dienst.

NVIDIA: Fleet Intelligence — verwaltete Überwachung großer GPU-Flotten mit kryptografischer Integritätsprüfung

Kryptografische Integritätsattestierung

Technologie und Deployment

Wer kann es nutzen und was kostet es?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten