🔧 하드웨어

19 개 뉴스

🟢 🔧 하드웨어 2026년 5월 23일 · 3 분 읽기

AMD:Gluon 블록 수준 모델로 Instinct MI355에서 MXFP4 5.255 TFLOPS GEMM 커널 구현

편집 일러스트: 매트릭스 유닛 레이아웃과 파이프라인을 가진 GPU 가속기

AMD ROCm 팀이 MI355 GPU에서 Gluon 프로그래밍 모델로 고성능 GEMM 커널을 작성하는 튜토리얼을 공개했습니다. 최적화된 FP16 커널은 MFMA 효율 98.75%로 1.489 TFLOPS를 달성했으며, BF8(3.257 TFLOPS)과 MXFP4(5.255 TFLOPS)로의 확장은 현대 AI 워크로드에 대한 적합성을 입증합니다. 튜토리얼에는 L2 캐시 미스를 530만에서 410만으로 줄이는 워크그룹 리매핑과 swizzle 기법이 포함되어 있습니다.

🟡 🔧 하드웨어 2026년 5월 21일 · 2 분 읽기

AMD: ROCm 7.13, MI350P GPU·멀티 VF 가상화·TheRock 모듈형 패키징 도입

Editorial illustration: AMD ROCm 7.13이 MI350P GPU, 멀티 VF 가상화, TheRock 모듈형 패키징 도입

AMD는 2026년 5월 20일 ROCm 7.13을 발표했습니다. 오픈소스 AI 컴퓨팅 스택의 새 버전으로 MI350P GPU 지원, MI300X 가속기당 최대 8개의 격리된 vGPU 가상화, 투명한 성능 분석을 위한 오픈소스 ROCprof Trace 디코더, 도메인별 SDK를 갖춘 모듈형 TheRock 패키징이 도입됩니다. Ubuntu 26.04 및 RHEL 9.6에서 검증됐으며 MI350X 및 MI355X의 VMware ESXi 9.1 지원도 포함됩니다.

🟢 🔧 하드웨어 2026년 5월 16일 · 3 분 읽기

AMD ROCm: BubbleFence가 메타데이터 휴리스틱 대신 Vision Foundation 모델 임베딩으로 비디오 스트림을 분할합니다

Editorial illustration: 2D 공간에서 임베딩 버블 시각화가 있는 비디오 프레임.

BubbleFence는 AMD가 2026년 5월 15일 ROCm 블로그에서 발표한 새로운 AI 도구로, 의미적 누수 없이 비디오 스트림을 훈련/검증/테스트 세트로 의미적으로 분할하는 근본적인 ML 문제를 해결합니다. 기존의 메타데이터 기반 휴리스틱 대신, BubbleFence는 Vision Foundation 모델 임베딩(CLIP)과 LID 가중치를 사용한 적응형 버블을 사용하여 분할합니다. 자율 주행(Zenseact Open Dataset)과 Minecraft 게임플레이 시나리오에서 구성 변경 없이 시연되었습니다.

🟢 🔧 하드웨어 2026년 5월 15일 · 2 분 읽기

AMD ROCm: Quark + FlyDSL + AITER 추론 스택을 통한 MI325X에서의 Kimi-K2.5 W4A8 및 W8A8 양자화

편집 일러스트: W4A8 양자화 레이어와 추론 가속 아이콘이 있는 AMD MI325X GPU 다이어그램.

AMD ROCm Kimi-K2.5 MI325X용 양자화는 2026년 5월 14일에 공개된 새로운 추론 가속 청사진입니다. AMD Quark 양자화 툴킷을 사용하여 Kimi-K2.5 모델을 W4A8 및 W8A8 정밀도 형식으로 변환하고, FlyDSL 추론 서빙 레이어와 AITER 최적화 스택을 결합합니다. 이 접근 방식은 중국 프론티어 모델에 비 NVIDIA 추론 경로를 제공하며, MI325X를 오픈소스 LLM 서빙을 위한 H100/H200의 실행 가능한 대안으로 위치시키는 AMD의 전략을 보여줍니다.

🟡 🔧 하드웨어 2026년 5월 12일 · 2 분 읽기

AMD: Instinct MI355X가 세 가지 ComfyUI 워크플로에서 NVIDIA B200 초과——ROCm 7.2.0 PyTorch 최적화 활용

Editorial illustration: Instinct MI355X가 세 가지 ComfyUI 워크플로에서 NVIDIA B200 초과——ROCm 7.2.0 PyTorch 최적화 활용

AMD Instinct MI355X는 발표된 벤치마크에서 세 가지 ComfyUI 생성 워크플로——텍스트-투-비디오 Wan2.2(1.44×), 텍스트-투-이미지 FLUX.1-dev(1.42×), 3D Hunyuan3D v2.1(1.20×)——에서 NVIDIA B200을 초과하는 데이터센터 GPU입니다. ROCm 7.2.0의 AOTriton gfx950 커널, hipBLASLt GEMM 튜닝 등의 최적화 덕분입니다.

🟡 🔧 하드웨어 2026년 5월 12일 · 2 분 읽기

NVIDIA: Fleet Intelligence——대규모 GPU 플리트 실시간 관리 모니터링과 암호학적 무결성 검증

Editorial illustration: Fleet Intelligence——대규모 GPU 플리트 실시간 관리 모니터링과 암호학적 무결성 검증

NVIDIA Fleet Intelligence는 대규모 NVIDIA 데이터센터 GPU 플리트를 실시간으로 모니터링하는 관리형 서비스로——전력, 온도, 성능, ECC 오류를 감시하고——NVIDIA Remote Attestation Service를 통한 GPU의 암호학적 진위 확인을 제공합니다. Vera Rubin, Blackwell, Hopper GPU 소유자에게 무료로 제공됩니다.

🟡 🔧 하드웨어 2026년 5월 11일 · 1 분 읽기

vLLM: TurboQuant 연구에서 FP8이 KV-cache에서 여전히 우월——3bit-nc 정확도 약 20포인트 하락

Editorial illustration: TurboQuant 연구에서 FP8이 KV-cache에서 여전히 우월——3bit-nc 정확도 약 20포인트 하락

Red Hat AI 팀은 TurboQuant의 공격적인 KV-cache 양자화(3~4비트)를 FP8 표준과 체계적으로 비교했습니다. 결과에 따르면 FP8은 처리량과 정확도를 유지하는 반면 3bit-nc 변종은 AIME25 등 고난도 추론 벤치마크에서 약 20포인트의 정확도를 잃습니다.

🔴 🔧 하드웨어 2026년 5월 7일 · 2 분 읽기

NVIDIA: Spectrum-X 다중 경로 신뢰 연결이 기가급 AI 네트워크를 위한 OCP 개방 표준으로 채택

Editorial illustration: paralelne svjetlovodne staze između AI rack-ova s natpisom MRC, Spectrum-X i OCP open standard

NVIDIA Spectrum-X 다중 경로 신뢰 연결(MRC)은 단일 연결의 트래픽을 여러 네트워크 경로에 분산하는 RDMA 전송 프로토콜로, 오픈 컴퓨트 프로젝트(OCP)를 통해 개방 규격으로 공개되었습니다. MRC는 OpenAI, Microsoft Fairwater 데이터센터, Oracle Abilene 데이터센터에서 이미 운영 중이며 AMD, Broadcom, Intel, Microsoft와 공동 개발되었습니다.

🟡 🔧 하드웨어 2026년 5월 6일 · 1 분 읽기

AMD: FarSkip-Collective, AMD GPU에서 MoE 추론 속도 18~34% 향상

편집 일러스트: MoE 추론 중 유휴 블록 없이 AMD GPU 간을 흐르는 병렬 데이터 스트림

AMD ROCm 팀이 전문가 병렬 통신 중 GPU 유휴 시간을 제거하는 개선된 MoE 아키텍처인 FarSkip-Collective를 발표했습니다. 결과: Llama-4 Scout의 TTFT 18% 감소, DeepSeek-V3 최대 1.34배 가속, Moonlight 사전 훈련 단계 11% 향상.

🟡 🔧 하드웨어 2026년 5월 5일 · 2 분 읽기

ArXiv SAGA:AI 에이전트를 위한 워크플로우 원자화 GPU 스케줄링, 64-GPU 클러스터에서 작업 완료 1.64배 단축, HPDC 2026 채택

편집 일러스트: 원자 단위로 연결된 에이전트 워크플로우가 있는 GPU 클러스터, 스케줄링의 상징

Dongxin Guo, Jikun Wu, Siu Ming Yiu 팀은 2026년 5월 1일 SAGA를 발표했습니다. GPU 클러스터 상의 AI 에이전트를 위한 워크플로우 원자화 스케줄러로, 개별 LLM 호출 대신 전체 에이전트 워크플로우를 하나의 스케줄 가능한 단위로 처리합니다. 64-GPU 클러스터에서 작업 완료 시간의 기하 평균 1.64배 단축과 멀티테넌트 부하에서 SLO 달성률 99.2%를 실현합니다. 논문은 HPDC 2026(클리블랜드, 2026년 7월 13-16일)에 채택되었습니다.

🟢 🔧 하드웨어 2026년 4월 25일 · 2 분 읽기

AMD Primus Projection: Instinct GPU 클러스터에서 LLM 훈련 시작 전 메모리와 속도를 예측하는 도구

편집 일러스트: AMD Primus Projection — LLM 훈련 예측

AMD Primus Projection은 Instinct GPU 클러스터에서 LLM 훈련을 시작하기 전에 메모리 요구 사항과 처리량을 예측하는 도구입니다. 분석 공식과 실제 GPU 벤치마크를 결합하며, MI325X와 MI355X 가속기에서 Llama와 Mixtral 모델에 대한 예측 오차는 약 10% 이내입니다.

🟢 🔧 하드웨어 2026년 4월 24일 · 2 분 읽기

Google, Cloud Next '26에서 TPU 8i와 TPU 8t 발표: 에이전트 AI 컴퓨팅 전용 칩

에디토리얼 일러스트: Google TPU 8i와 8t——전용 AI 칩

Google이 Cloud Next '26 컨퍼런스에서 두 가지 새로운 세대의 TPU 칩을 발표했습니다: AI 에이전트 추론용 TPU 8i와 가장 복잡한 모델 훈련용 TPU 8t. 이 발표는 Google의 TPU 라인을 「에이전트 시대」 컴퓨팅의 두 가지 전문 브랜치로 공식 분리합니다.

🟡 🔧 하드웨어 2026년 4월 23일 · 2 분 읽기

NVIDIA와 Google Cloud, 공동 인프라에서 에이전트 AI 및 피지컬 AI 협력 발표

에디토리얼 일러스트: AI 칩——hardware

NVIDIA와 Google Cloud는 NVIDIA GPU 인프라와 Google Cloud 플랫폼을 결합하여 로보틱스, 자율 시스템, 에이전트 분야의 에이전트 AI 및 피지컬 AI 워크로드를 가속화하는 공동 협력을 발표했습니다.

🟢 🔧 하드웨어 2026년 4월 23일 · 2 분 읽기

Gemma 4, NVIDIA Jetson Orin Nano Super에서 비전 언어 에이전트로 로컬 실행 시연

에디토리얼 일러스트: AI 칩 — hardware

NVIDIA와 HuggingFace는 Gemma 4가 8GB 메모리를 갖춘 NVIDIA Jetson Orin Nano Super에서 비전 언어 에이전트(VLA)로서 카메라 사용을 자율적으로 결정하고 음성 인식과 TTS를 포함한 전체 파이프라인 처리를 클라우드 의존 없이 로컬에서 수행하는 것을 시연했습니다.

🔴 🔧 하드웨어 2026년 4월 22일 · 3 분 읽기

구글, 8세대 TPU 칩 공개: 에이전트형 AI 시대를 위한 두 가지 특화 변형

에디토리얼 일러스트: 에이전트형 AI 워크로드의 학습과 추론을 위한 8세대 두 가지 특화 TPU 칩

구글은 Cloud Next '26 컨퍼런스에서 8세대 TPU 칩을 두 가지 특화 변형으로 공개했습니다. 모델 학습용 TPU 8t와 에이전트형 추론용 TPU 8i입니다. 자율형 AI 에이전트와 다단계 추론을 주요 사용 사례로 설계된 최초의 세대입니다.

🟡 🔧 하드웨어 2026년 4월 21일 · 2 분 읽기

AWS G7e Blackwell 인스턴스: SageMaker에서 Qwen3-32B를 백만 토큰당 0.41달러로——4배 저렴한 추론

NVIDIA Blackwell GPU와 GDDR7 메모리 모듈을 갖춘 데이터 센터의 편집 삽화

AWS G7e 인스턴스는 NVIDIA RTX PRO 6000 Blackwell 칩과 96GB GDDR7 메모리를 탑재한 새로운 SageMaker GPU 인스턴스로, G6e 세대 대비 최대 2.3배 향상된 추론 성능을 제공합니다. Qwen3-32B의 비용은 백만 출력 토큰당 2.06달러에서 0.79달러로 낮아지며, EAGLE 투기적 디코딩과 결합하면 0.41달러까지 가능합니다.

🟡 🔧 하드웨어 2026년 4월 16일 · 2 분 읽기

AWS: Trainium 칩에서의 Speculative Decoding이 LLM 추론을 최대 3배 가속

Amazon Web Services가 AWS Trainium 칩과 vLLM 프레임워크를 결합한 Speculative Decoding의 상세한 구현을 발표하며, 디코드 집약적 워크로드에서 토큰 생성 속도를 최대 3배 향상시켰습니다. 이 기술은 소규모 초안 모델이 다음 N개의 토큰을 예측하고 대규모 목표 모델이 단일 패스에서 한꺼번에 검증하여 순차적 생성의 병목을 제거합니다.

🟢 🔧 하드웨어 2026년 4월 16일 · 2 분 읽기

NVIDIA: Blackwell이 Hopper보다 35배 저렴하게 토큰 생성——토큰당 비용만이 유일한 지표

NVIDIA가 토큰당 비용이 AI 인프라에서 유일하게 관련된 지표임을 주장하는 분석을 발표했습니다. Blackwell과 Hopper 세대 비교에서 Blackwell은 GPU 시간당 비용이 2배 높지만 초당 65배 더 많은 토큰을 생성하여, 백만 토큰당 비용이 35배 낮아집니다——Hopper의 4.20달러 대비 0.12달러.

🟡 🔧 하드웨어 2026년 4월 10일 · 2 분 읽기

NVIDIA, National Robotics Week에서 RoboLab 벤치마크와 새로운 피지컬 AI 프로젝트 물결 공개

NVIDIA는 2026년 National Robotics Week의 일환으로 시뮬레이션에서 현실로의 전이를 위한 RoboLab 벤치마크, Toyota Research Institute, Mimic Robotics, Doosan Robotics와의 협업, 그리고 Isaac Lab-Arena와 같은 로봇 정책 평가를 위한 오픈 리소스를 포함한 다수의 새로운 피지컬 AI 프로젝트를 공개했습니다.