🟡 📦 Open Source četvrtak, 7. svibnja 2026. · 2 min čitanja ·

AMD: vLLM-ATOM plugin donosi Instinct optimizacije bez izmjena vLLM koda

Editorial illustration: vLLM-ATOM plugin donosi Instinct optimizacije bez izmjena vLLM koda

AMD je objavio vLLM-ATOM, open-source plugin koji integrira optimizacije za Instinct GPU-ove u vLLM production framework bez izmjena izvornog koda. Aktivira se automatski kroz Python entry_points, podržava dense i MoE modele uključujući Kimi-K2.5 i DeepSeek V3/R1, a koristi AITER kernele za fused MoE i flash attention.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Što je vLLM-ATOM?

AMD je 7. svibnja 2026. predstavio vLLM-ATOM, open-source plugin koji integrira optimizacije za Instinct GPU-ove u vLLM, jedan od najraširenijih production framework-a za serviranje velikih jezičnih modela. Ključna karakteristika je što se integracija postiže bez ijedne izmjene izvornog vLLM koda — plugin se aktivira kroz standardni Python entry_points mehanizam i registrira dvije kuke: register_platform() i register_model().

Trolojna arhitektura

Plugin uvodi jasnu separaciju briga kroz tri sloja:

  • vLLM layer zadržava kontrolu nad request schedulingom, KV cache managementom, continuous batchingom i OpenAI-kompatibilnim API-jem.
  • ATOM plugin registrira platformu, optimizirane implementacije modela i routing attention backenda.
  • AITER pruža niskorazinske GPU kernele optimizirane za Instinct hardver.

Ovakva podjela omogućuje da AMD doprinosi optimizacije bez fork-anja vLLM repozitorija — što je ključno za održivost u open-source ekosustavu.

Koje modele podržava?

Plugin pokriva i tekstualne (LLM) i multimodalne (VLM) modele kroz dense i MoE arhitekture:

  • Kimi-K2.5 — multimodalni MoE model (tekst/slika/video)
  • DeepSeek V3 i R1 s MLA+MoE varijantama, uključujući FP8 i MXFP4 kvantizaciju
  • Qwen3 serija u dense i MoE konfiguracijama
  • GLM-4 i GPT-OSS s MoE podrškom

Routing attention backenda automatski je: AiterBackend za standardnu Multi-Head Attention, AiterMLABackend za Multi-head Latent Attention arhitekture.

Zašto je ovo strateški važno?

NVIDIA dominira inference tržištem zahvaljujući zreloj programskoj paradigmi koliko i hardveru. AMD-ov potez s vLLM-ATOM-om — plus AITER kerneli za fused MoE i flash attention — pokazuje da se kompanija fokusira na „zero-friction” iskustvo: instaliraš plugin pored vLLM-a i optimizacije se same uključe. Live benchmark dashboard prati throughput, latenciju i točnost kroz model updateove, što omogućuje produkcijsku verifikaciju prije skaliranja. Za open-source zajednicu koja gradi infrastrukturu oko Kimi-K2.5 i DeepSeeka, ovo je konkretan korak prema hardverskoj raznolikosti.

Česta pitanja

Što je vLLM?
Open-source production framework za serviranje velikih jezičnih modela, poznat po visokoj propusnosti zahvaljujući mehanizmima poput continuous batching i PagedAttention KV cachea.
Što je MoE arhitektura?
Mixture of Experts — model s više specijaliziranih podmreža; pri inferenciji se aktivira samo dio njih, što omogućuje veliki kapacitet uz manju računsku cijenu po tokenu.
Što je AITER?
AMD-ova biblioteka niskorazinskih GPU kernela optimiziranih za Instinct hardver — uključuje fused MoE, flash attention, kvantizirani GEMM i RoPE fusion.