🟡 🔧 Hardware Objavljeno: · 2 min čitanja ·

NVIDIA: Fleet Intelligence — managed nadzor velikih GPU flota s kriptografskom provjerom integriteta

Editorial illustration: Fleet Intelligence — managed nadzor velikih GPU flota s kriptografskom provjerom integriteta

NVIDIA Fleet Intelligence je managed servis koji u stvarnom vremenu nadzire velike flote NVIDIA data center GPU-a — snagu, temperaturu, performanse i ECC greške — uz kriptografsku provjeru autentičnosti GPU-a kroz NVIDIA Remote Attestation Service. Servis je besplatan za vlasnike Vera Rubin, Blackwell i Hopper GPU-a.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

NVIDIA je objavila Fleet Intelligence, managed servis za nadzor velikih GPU flota u stvarnom vremenu. Servis pokriva pet ključnih područja praćenja: iskorištenost snage i throttling, temperaturu i toplinske probleme, performanse i bottleneck-e, hardversko zdravlje (ECC greške, retired pages, NVLink anomalije) te konzistentnost konfiguracije.

Kriptografska attestacija integriteta

Najvažnija razlika u odnosu na klasične GPU monitoring stack-ove je kriptografska verifikacija autentičnosti GPU-a kroz NVIDIA Confidential Computing tehnologiju. Lokalni agent dohvaća runtime measurement-e — sažetke firmware-a, konfiguracije i stanja — koje GPU digitalno potpiše svojim hardverskim ključem. Potpis se zatim verificira kroz NVIDIA Remote Attestation Service (NRAS), što dokazuje da je GPU autentičan NVIDIA hardver u poznatom, neizmijenjenom stanju.

Za organizacije koje vrte multi-tenant inference ili confidential ML treniranje, ovo eliminira čitav skup napada baziranih na podmetnutom ili modificiranom hardveru.

Tehnologija i deployment

Sustav koristi laganog host-based agenta koji strima GPU telemetriju u NVIDIA-in cloud servis. Agent je open-source i, kako stoji u objavi, “koristi tehnologiju i IP iz čitavog NVIDIA portfelja”, uključujući GPUd, DCGM i Attestation SDK. Otvoreni kod omogućuje audit i transparentnost — bitno za pristanak sigurnosnih timova na deployment.

Instalacija ide kroz Linux package manager-e ili Helm chart na GPU worker čvorovima u Kubernetes klasterima.

Tko može koristiti i koliko košta?

Servis je sada general available i besplatan za vlasnike NVIDIA data center GPU-a. Podržane su tri arhitekture: Vera Rubin, Blackwell i Hopper — pri čemu je puna attestation funkcija ograničena na Vera Rubin i Blackwell (Hopper nema potreban firmware put). Klijentska RTX linija nije obuhvaćena.

Praktično, ovo znači da hyperscaler-i i enterprise klijenti s tisućama GPU-ova dobivaju single-pane-of-glass nadzor i hardverski signiranu provjeru integriteta — bez dodatne licence povrh kupljenih GPU-a.

Česta pitanja

Što je kriptografska provjera integriteta GPU-a?
Fleet Intelligence agent dohvaća runtime measurement-e (sažetke firmware-a, konfiguracije, stanja) koje GPU digitalno potpiše svojim hardverskim ključem. Potpis se verificira kroz NVIDIA Remote Attestation Service (NRAS), čime se dokazuje da je GPU autentičan NVIDIA hardver u poznatom stanju — važno za confidential computing scenarije.
Koje GPU arhitekture su podržane?
Servis podržava Vera Rubin, Blackwell i Hopper data center GPU-ove. Attestation funkcija ograničena je na Vera Rubin i Blackwell (Hopper nema potreban firmware put). Klijentska/consumer GPU linija RTX nije podržana.
Kako se instalira agent?
Instalacija ide kroz standardne Linux package managere ili Helm chart za Kubernetes deployment na GPU worker čvorovima. Agent je open-source, koristi tehnologiju iz GPUd-a, DCGM-a i Attestation SDK-a, i strima telemetriju u NVIDIA-in cloud servis.