🟡 🔧 Hardware Objavljeno: · 2 min čitanja ·

AMD: Novi ATOM inference engine za Instinct GPU-e donosi OpenAI-kompatibilan API i MoE optimizacije

Editorial ilustracija: AMD Instinct GPU stog za posluživanje AI modela

AMD je predstavio ATOM, inference engine za Instinct GPU-e koji eksponira OpenAI-kompatibilan API te orkestrira KV cache, scheduling i paralelizam. ATOM je vrh ROCm stoga, uz AITER kernele i MoRI RDMA komunikaciju, podržava TP, DP i EP paralelizam te je optimiziran za MoE modele poput DeepSeek V2–V4, Mixtral i Qwen3-MoE. Nudi FP8, MXFP4, INT8 i INT4 kvantizaciju te MTP speculative decoding s EAGLE proposerom.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

AMD je predstavio ATOM, inference engine namijenjen Instinct GPU-ima koji izravno cilja produkcijsko posluživanje velikih jezičnih modela na AMD hardveru.

Što ATOM nudi i gdje se smješta u AMD-ov stog?

ATOM eksponira OpenAI-kompatibilan API te orkestrira KV cache, scheduling i paralelizam pri inferenciji. Inference engine je sloj koji prima zahtjeve i upravlja izvođenjem modela na GPU-ima. ATOM stoji na vrhu AMD-ovog stoga: ROCm kao platforma, AITER za ubrzanje kernela, MoRI za RDMA komunikaciju među čvorovima te ATOM kao serving sloj. RDMA (Remote Direct Memory Access) omogućuje izravan prijenos memorije među uređajima bez opterećenja procesora.

Koje modele i vrste paralelizma ATOM podržava?

ATOM podržava tenzorski (TP), podatkovni (DP) i ekspertski (EP) paralelizam, a posebno je optimiziran za MoE (Mixture of Experts) modele. Eksplicitno navedeni modeli uključuju DeepSeek V2 do V4, Mixtral, Qwen3-MoE, Kimi-K2.5 i MiniMax-M2. Ekspertski paralelizam raspodjeljuje pojedine “eksperte” MoE modela po više GPU-a, što je ključno za učinkovito posluživanje velikih MoE arhitektura.

Kako ATOM ubrzava inferenciju?

ATOM nudi kvantizaciju u formatima FP8, MXFP4, INT8 i INT4, uz automatsku detekciju iz HuggingFace konfiguracije modela. Kvantizacija smanjuje preciznost težina kako bi se ubrzala inferencija i smanjila potrošnja memorije. Dodatno, ATOM koristi MTP speculative decoding s EAGLE proposerom, dijeljenje prefix cachea te piecewise kompilaciju za bržu obradu.

Kako se ATOM koristi u praksi?

ATOM se može pokrenuti samostalno ili kao plugin za vLLM i SGLang, dvije popularne biblioteke za posluživanje LLM-ova. AMD uz to objavljuje javni benchmark dashboard s noćnim praćenjem performansi, čime nudi transparentan signal o napretku posluživanja na Instinct GPU-ima kao alternativi NVIDIA stogu.

Česta pitanja

Što je AMD ATOM?
Inference engine za AMD Instinct GPU-e koji nudi OpenAI-kompatibilan API i orkestrira KV cache, scheduling i paralelizam.
Koje modele ATOM optimizira?
MoE modele poput DeepSeek V2–V4, Mixtral, Qwen3-MoE, Kimi-K2.5 i MiniMax-M2.
Koje kvantizacije ATOM podržava?
FP8, MXFP4, INT8 i INT4, uz automatsku detekciju iz HuggingFace konfiguracije.