AMD: vLLM-ATOM plugin donosi Instinct optimizacije bez izmjena vLLM koda
AMD je objavio vLLM-ATOM, open-source plugin koji integrira optimizacije za Instinct GPU-ove u vLLM production framework bez izmjena izvornog koda. Aktivira se automatski kroz Python entry_points, podržava dense i MoE modele uključujući Kimi-K2.5 i DeepSeek V3/R1, a koristi AITER kernele za fused MoE i flash attention.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je vLLM-ATOM?
AMD je 7. svibnja 2026. predstavio vLLM-ATOM, open-source plugin koji integrira optimizacije za Instinct GPU-ove u vLLM, jedan od najraširenijih production framework-a za serviranje velikih jezičnih modela. Ključna karakteristika je što se integracija postiže bez ijedne izmjene izvornog vLLM koda — plugin se aktivira kroz standardni Python entry_points mehanizam i registrira dvije kuke: register_platform() i register_model().
Trolojna arhitektura
Plugin uvodi jasnu separaciju briga kroz tri sloja:
- vLLM layer zadržava kontrolu nad request schedulingom, KV cache managementom, continuous batchingom i OpenAI-kompatibilnim API-jem.
- ATOM plugin registrira platformu, optimizirane implementacije modela i routing attention backenda.
- AITER pruža niskorazinske GPU kernele optimizirane za Instinct hardver.
Ovakva podjela omogućuje da AMD doprinosi optimizacije bez fork-anja vLLM repozitorija — što je ključno za održivost u open-source ekosustavu.
Koje modele podržava?
Plugin pokriva i tekstualne (LLM) i multimodalne (VLM) modele kroz dense i MoE arhitekture:
- Kimi-K2.5 — multimodalni MoE model (tekst/slika/video)
- DeepSeek V3 i R1 s MLA+MoE varijantama, uključujući FP8 i MXFP4 kvantizaciju
- Qwen3 serija u dense i MoE konfiguracijama
- GLM-4 i GPT-OSS s MoE podrškom
Routing attention backenda automatski je: AiterBackend za standardnu Multi-Head Attention, AiterMLABackend za Multi-head Latent Attention arhitekture.
Zašto je ovo strateški važno?
NVIDIA dominira inference tržištem zahvaljujući zreloj programskoj paradigmi koliko i hardveru. AMD-ov potez s vLLM-ATOM-om — plus AITER kerneli za fused MoE i flash attention — pokazuje da se kompanija fokusira na „zero-friction” iskustvo: instaliraš plugin pored vLLM-a i optimizacije se same uključe. Live benchmark dashboard prati throughput, latenciju i točnost kroz model updateove, što omogućuje produkcijsku verifikaciju prije skaliranja. Za open-source zajednicu koja gradi infrastrukturu oko Kimi-K2.5 i DeepSeeka, ovo je konkretan korak prema hardverskoj raznolikosti.
Česta pitanja
- Što je vLLM?
- Open-source production framework za serviranje velikih jezičnih modela, poznat po visokoj propusnosti zahvaljujući mehanizmima poput continuous batching i PagedAttention KV cachea.
- Što je MoE arhitektura?
- Mixture of Experts — model s više specijaliziranih podmreža; pri inferenciji se aktivira samo dio njih, što omogućuje veliki kapacitet uz manju računsku cijenu po tokenu.
- Što je AITER?
- AMD-ova biblioteka niskorazinskih GPU kernela optimiziranih za Instinct hardver — uključuje fused MoE, flash attention, kvantizirani GEMM i RoPE fusion.
Povezane vijesti
Allen Institute: MolmoAct 2 je prvi open-source robotics foundation model koji nadmašuje GPT-5 i Gemini 2.5 Pro
IBM Granite 4.1: open-source obitelj 3B/8B/30B Apache 2.0 modela trenirana na 15T tokena pokazuje da gusti 8B model match-a 32B MoE
Marco-MoE: open-source multilingual MoE s 5% aktivnih parametara nadmašuje dense modele 3-14× veće aktivacije