🟡 🔧 하드웨어 게시일: · 2 분 읽기 ·

NVIDIA: Fleet Intelligence——대규모 GPU 플리트 실시간 관리 모니터링과 암호학적 무결성 검증

Editorial illustration: Fleet Intelligence——대규모 GPU 플리트 실시간 관리 모니터링과 암호학적 무결성 검증

NVIDIA Fleet Intelligence는 대규모 NVIDIA 데이터센터 GPU 플리트를 실시간으로 모니터링하는 관리형 서비스로——전력, 온도, 성능, ECC 오류를 감시하고——NVIDIA Remote Attestation Service를 통한 GPU의 암호학적 진위 확인을 제공합니다. Vera Rubin, Blackwell, Hopper GPU 소유자에게 무료로 제공됩니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

NVIDIA가 Fleet Intelligence를 발표했습니다. 대규모 GPU 플리트를 실시간으로 모니터링하는 관리형 서비스입니다. 서비스는 다섯 가지 핵심 모니터링 영역을 다룹니다: 전력 활용도 및 스로틀링, 온도 및 열 문제, 성능 및 병목, 하드웨어 건강 상태(ECC 오류, 은퇴한 페이지, NVLink 이상), 구성 일관성.

암호학적 무결성 증명

기존 GPU 모니터링 스택과 가장 중요한 차이는 NVIDIA Confidential Computing 기술을 통한 GPU의 암호학적 진위 검증입니다. 로컬 에이전트가 런타임 측정값——펌웨어 다이제스트, 구성, 상태——을 가져오면 GPU가 하드웨어 키로 디지털 서명합니다. 서명은 이후 **NVIDIA Remote Attestation Service(NRAS)**를 통해 검증되어 GPU가 알려진, 수정되지 않은 상태의 진정한 NVIDIA 하드웨어임을 증명합니다.

멀티 테넌트 추론이나 기밀 ML 훈련을 운영하는 조직에게 이는 심어진 또는 수정된 하드웨어 기반의 공격 범주 전체를 제거합니다.

기술과 배포

시스템은 경량 호스트 기반 에이전트를 사용하여 GPU 텔레메트리를 NVIDIA의 클라우드 서비스로 스트리밍합니다. 에이전트는 오픈소스이며 발표에 따르면 “NVIDIA 포트폴리오 전체의 기술과 IP를 활용”하여 GPUd, DCGM, Attestation SDK를 포함합니다. 오픈 코드는 감사와 투명성을 가능하게 하며——보안팀의 배포 승인에 중요합니다.

설치는 Linux 패키지 관리자 또는 Kubernetes 클러스터의 GPU 워커 노드에 Helm chart를 통해 이루어집니다.

누가 이용할 수 있으며 비용은 얼마입니까?

서비스는 현재 **일반 제공(GA)**이며 NVIDIA 데이터센터 GPU 소유자에게 무료입니다. 지원 아키텍처는 세 가지: Vera Rubin, Blackwell, Hopper——완전한 Attestation 기능은 Vera Rubin과 Blackwell로만 제한됩니다(Hopper에는 필요한 펌웨어 경로가 없습니다). 소비자용 RTX 라인은 포함되지 않습니다.

실제로 이는 수천 개의 GPU를 보유한 하이퍼스케일러와 기업 고객이 구매한 GPU 외에 추가 라이선스 없이 단일 창구 모니터링과 하드웨어 서명 무결성 검증을 얻을 수 있음을 의미합니다.

자주 묻는 질문

GPU의 암호학적 무결성 검증이란 무엇입니까?
Fleet Intelligence 에이전트가 런타임 측정값(펌웨어 다이제스트, 구성, 상태)을 가져오면 GPU가 하드웨어 키로 디지털 서명합니다. 서명은 NVIDIA Remote Attestation Service(NRAS)를 통해 검증되어 GPU가 알려진 상태의 진정한 NVIDIA 하드웨어임을 증명합니다——기밀 컴퓨팅 시나리오에서 중요합니다.
어떤 GPU 아키텍처가 지원됩니까?
Vera Rubin, Blackwell, Hopper 데이터센터 GPU가 지원됩니다. Attestation 기능은 Vera Rubin과 Blackwell로만 제한됩니다(Hopper에는 필요한 펌웨어 경로가 없습니다). 소비자용 RTX 라인은 지원되지 않습니다.
에이전트는 어떻게 설치합니까?
표준 Linux 패키지 관리자를 통해 또는 Kubernetes GPU 워커 노드에 Helm chart로 설치합니다. 에이전트는 오픈소스이며, GPUd, DCGM, Attestation SDK의 기술을 사용하여 NVIDIA의 클라우드 서비스로 텔레메트리를 스트리밍합니다.