🔧 Hardware

19 vijesti

🟢 🔧 Hardware 23. svibnja 2026. · 4 min čitanja

AMD: Gluon block-level model omogućuje GEMM kernele s 5.255 TFLOPS MXFP4 na Instinct MI355

Editorial ilustracija: GPU akcelerator s rasporedom matričnih jedinica i pipeline tokova

AMD ROCm tim objavio je tutorial za pisanje high-performance GEMM kernela u Gluon programskom modelu na MI355 GPU-u. Optimirani FP16 kernel postiže 1.489 TFLOPS uz 98,75 posto MFMA efikasnosti, dok proširenja na BF8 (3.257 TFLOPS) i MXFP4 (5.255 TFLOPS) demonstriraju relevantnost za moderne AI workloade. Tutorial uključuje workgroup remapping i swizzle koji reducira L2 cache misses s 5,3 M na 4,1 M.

🟡 🔧 Hardware 21. svibnja 2026. · 2 min čitanja

AMD: ROCm 7.13 donosi MI350P GPU, multi-VF virtualizaciju i TheRock pakiranje

Editorial illustration: AMD ROCm 7.13 s MI350P GPU, multi-VF virtualizacijom i TheRock modularnim pakiranjem

AMD je 20. svibnja 2026. objavio ROCm 7.13 — novu verziju open-source AI compute stack-a koja donosi podršku za MI350P GPU, virtualizaciju do 8 izoliranih vGPU-a po MI300X akceleratoru, open-source ROCprof Trace decoder za transparentnu analizu performansi i modularno TheRock pakiranje s domain-specific SDK-ovima. Release validiran je na Ubuntu 26.04 i RHEL 9.6 te uključuje VMware ESXi 9.1 podršku za MI350X i MI355X.

🟢 🔧 Hardware 16. svibnja 2026. · 3 min čitanja

AMD ROCm: BubbleFence dijeli video streamove embeddingom iz Vision Foundation modela umjesto metadata heuristika

Editorial illustration: video frameovi s embedding bubble vizualizacijom u 2D prostoru.

BubbleFence je novi AMD ROCm AI tool objavljen 15. svibnja 2026. koji rješava fundamental ML problem semantičkog dijeljenja video streamova u train/validation/test setove bez semantic leakage. Umjesto klasičnih metadata-based heuristika, BubbleFence koristi vision foundation model embeddinge (CLIP) i adaptive bubbles s LID weighting za particioniranje. Demonstriran na autonomous driving (Zenseact Open Dataset) i Minecraft gameplay scenarijima bez configuration promjena.

🟢 🔧 Hardware 15. svibnja 2026. · 2 min čitanja

AMD ROCm: Kimi-K2.5 W4A8 i W8A8 kvantizacija na MI325X kroz Quark + FlyDSL + AITER inference stack

Editorial illustration: AMD MI325X GPU s W4A8 quantizacijskim slojem i inference akceleracijskim ikonama.

AMD ROCm Kimi-K2.5 quantization za MI325X je novi inference acceleration blueprint objavljen 14. svibnja 2026. Kombinira AMD Quark kvantizacijski toolkit za pretvaranje Kimi-K2.5 modela u W4A8 i W8A8 precision formate, FlyDSL inference serving sloj i AITER optimization stack. Pristup pozicionira non-NVIDIA inference path za chinese frontier modele i pokazuje AMD strategiju da MI325X postane održiva alternativa H100/H200 za open-source LLM serving.

🟡 🔧 Hardware 12. svibnja 2026. · 2 min čitanja

AMD: Instinct MI355X nadmašuje NVIDIA B200 za ComfyUI workflowove uz PyTorch optimizacije u ROCm 7.2.0

Editorial illustration: Instinct MI355X nadmašuje NVIDIA B200 za ComfyUI workflowove uz PyTorch optimizacije u ROCm 7.2.0

AMD Instinct MI355X je data center GPU koji u objavljenom benchmark-u nadmašuje NVIDIA B200 na tri ComfyUI generativna workflowa — text-to-video Wan2.2 (1.44×), text-to-image FLUX.1-dev (1.42×) i 3D Hunyuan3D v2.1 (1.20×) — zahvaljujući AOTriton gfx950 kernelima, hipBLASLt GEMM tuningu i ostalim ROCm 7.2.0 optimizacijama.

🟡 🔧 Hardware 12. svibnja 2026. · 2 min čitanja

NVIDIA: Fleet Intelligence — managed nadzor velikih GPU flota s kriptografskom provjerom integriteta

Editorial illustration: Fleet Intelligence — managed nadzor velikih GPU flota s kriptografskom provjerom integriteta

NVIDIA Fleet Intelligence je managed servis koji u stvarnom vremenu nadzire velike flote NVIDIA data center GPU-a — snagu, temperaturu, performanse i ECC greške — uz kriptografsku provjeru autentičnosti GPU-a kroz NVIDIA Remote Attestation Service. Servis je besplatan za vlasnike Vera Rubin, Blackwell i Hopper GPU-a.

🟡 🔧 Hardware 11. svibnja 2026. · 2 min čitanja

vLLM: TurboQuant studija pokazuje da FP8 ostaje superioran za KV-cache — 3bit-nc pad ~20 pp

Editorial illustration: TurboQuant studija pokazuje da FP8 ostaje superioran za KV-cache — 3bit-nc pad ~20 pp

TurboQuant je metoda agresivne kvantizacije KV-cachea na 3-4 bita koju je Red Hat AI tim sustavno usporedio s FP8 standardom. Rezultati pokazuju da FP8 zadržava propusnost i točnost, dok varijante 3bit-nc gube približno 20 postotnih bodova na zahtjevnim reasoning benchmarkovima poput AIME25.

🔴 🔧 Hardware 7. svibnja 2026. · 3 min čitanja

NVIDIA: Spectrum-X Multipath Reliable Connection postaje OCP otvoreni standard za gigascale AI mreže

Editorial illustration: paralelne svjetlovodne staze između AI rack-ova s natpisom MRC, Spectrum-X i OCP open standard

NVIDIA Spectrum-X Multipath Reliable Connection (MRC) je RDMA transportni protokol koji distribuira jednu vezu preko više mrežnih putova i sada je objavljen kao otvorena specifikacija kroz Open Compute Project. MRC je već u produkciji kod OpenAI-a, Microsoftovog Fairwater data centra i Oracleovog Abilene data centra, a razvijen je u suradnji s AMD-om, Broadcomom, Intelom i Microsoftom.

🟡 🔧 Hardware 6. svibnja 2026. · 2 min čitanja

AMD: FarSkip-Collective ubrzava MoE inferenciju 18-34 % na AMD GPU-ima

Editorial illustration: paralelni tokovi između AMD GPU-a tijekom MoE inferencije bez idle blokova.

AMD ROCm tim predstavio je FarSkip-Collective, modificiranu MoE arhitekturu koja eliminira GPU idle vrijeme tijekom Expert Parallelism komunikacije. Rezultati: 18 % manji TTFT za Llama-4 Scout, do 1,34× ubrzanje za DeepSeek-V3 i 11 % bržu Moonlight pre-trening fazu.

🟡 🔧 Hardware 5. svibnja 2026. · 3 min čitanja

ArXiv SAGA: workflow-atomic GPU scheduling za AI agente postiže 1,64× brže task completion na 64-GPU klasteru, prihvaćeno na HPDC 2026

Editorial ilustracija: GPU klaster s povezanim agentnim workflow-ovima kao atomarnim jedinicama, simbolika scheduling-a

Tim Dongxin Guo, Jikun Wu i Siu Ming Yiu predstavio je 1. svibnja 2026. SAGA — workflow-atomic raspoređivač za AI agente na GPU klasterima koji tretira cijeli agent workflow kao jednu schedulable jedinicu umjesto pojedinačnih LLM poziva. Sustav postiže 1,64× geometrijsku sredinu smanjenja task completion vremena na 64-GPU klasteru i 99,2 % SLO postizanje pod multi-tenant opterećenjem. Rad je prihvaćen na HPDC 2026 u Clevelandu (13.-16. srpnja 2026.).

🟢 🔧 Hardware 25. travnja 2026. · 2 min čitanja

AMD Primus Projection: alat za predviđanje memorije i brzine treninga LLM-ova prije pokretanja na Instinct GPU klasterima

Editorial illustration: AMD Primus Projection — predviđanje LLM treninga

AMD Primus Projection je alat koji prije pokretanja treninga LLM-a na Instinct GPU klasterima predviđa memorijske zahtjeve i propusnost. Koristi analitičke formule uz stvarni GPU benchmark, a projekcije su unutar ~10 % izmjerenih rezultata na MI325X i MI355X akceleratorima za Llama i Mixtral modele.

🟢 🔧 Hardware 24. travnja 2026. · 3 min čitanja

Google na Cloud Next '26 predstavio TPU 8i i TPU 8t: specijalizirani čipovi za agentno AI računarstvo

Editorial illustration: Google TPU 8i i 8t — specijalizirani AI čipovi

Google je na konferenciji Cloud Next '26 predstavio dvije nove generacije TPU čipova: TPU 8i za inferenciju AI agenata i TPU 8t za trening najsloženijih modela. Potez formalizira podjelu Googleove TPU linije na dvije specijalizirane grane unutar 'agentne ere' računarstva.

🟡 🔧 Hardware 23. travnja 2026. · 2 min čitanja

NVIDIA i Google Cloud najavili suradnju za agentic AI i physical AI na zajedničkoj infrastrukturi

Editorial illustration: AI čip — hardware

NVIDIA i Google Cloud objavili su zajedničku suradnju za ubrzavanje agentic AI i physical AI radnih opterećenja, kombinirajući NVIDIA GPU infrastrukturu s Google Cloud platformom za robotiku, autonomne sustave i agente.

🟢 🔧 Hardware 23. travnja 2026. · 2 min čitanja

Gemma 4 pokrenut kao Vision Language Agent lokalno na Jetson Orin Nano Super

NVIDIA i HuggingFace demonstrirali su Gemma 4 kao Vision Language Agent koji autonomno odlučuje o korištenju kamere i cijelu pipeline obradu, uključujući speech-to-text i TTS, izvodi lokalno na NVIDIA Jetson Orin Nano Super s 8 GB memorije, bez cloud ovisnosti.

🔴 🔧 Hardware 22. travnja 2026. · 3 min čitanja

Google predstavio 8. generaciju TPU čipova: dvije specijalizirane varijante za agentic AI eru

Editorial ilustracija: Dva specijalizirana TPU cipa 8. generacije za treniranje i inferenciju agentic AI workloada

Google je na Cloud Next '26 konferenciji predstavio osmu generaciju svojih TPU čipova u dvije specijalizirane varijante — TPU 8t za treniranje modela i TPU 8i za agentic inference. Prva je to generacija posebno dizajnirana za autonomne AI agente i multi-step rezoniranje.

🟡 🔧 Hardware 21. travnja 2026. · 3 min čitanja

AWS G7e Blackwell instance: Qwen3-32B na SageMakeru za $0,41 po milijunu tokena — 4× jeftiniji inference

Editorial ilustracija podatkovnog centra s NVIDIA Blackwell GPU-ima i GDDR7 memorijskim modulima

AWS G7e instance su nove SageMaker GPU instance s NVIDIA RTX PRO 6000 Blackwell čipom i 96 GB GDDR7 memorije koje donose do 2,3× bolji inference od G6e generacije. Trošak za Qwen3-32B pada s $2,06 na $0,79 po milijunu output tokena, a uz EAGLE spekulativno dekodiranje i do $0,41.

🟡 🔧 Hardware 16. travnja 2026. · 2 min čitanja

AWS: Speculative decoding na Trainium čipovima ubrzava LLM inference do 3 puta

Amazon Web Services objavio je detaljnu implementaciju speculative decodinga na AWS Trainium čipovima u kombinaciji s vLLM frameworkom, postižući do 3 puta brže generiranje tokena za decode-heavy radne zadatke. Tehnika koristi manji draft model koji predviđa sljedećih N tokena, a veći target model ih verificira u jednom prolazu, eliminirajući usko grlo sekvencijalnog generiranja.

🟢 🔧 Hardware 16. travnja 2026. · 2 min čitanja

NVIDIA: Blackwell generira tokene 35 puta jeftinije od Hoppera — cijena po tokenu jedina je metrika

NVIDIA je objavila analizu koja argumentira da je cijena po tokenu jedina relevantna metrika za AI infrastrukturu. Usporedba Blackwell i Hopper generacije pokazuje da Blackwell košta dva puta više po GPU satu, ali generira 65 puta više tokena u sekundi, rezultirajući 35 puta nižom cijenom po milijunu tokena — 0,12 dolara nasuprot 4,20 dolara za Hopper.

🟡 🔧 Hardware 10. travnja 2026. · 2 min čitanja

NVIDIA na National Robotics Weeku predstavila RoboLab benchmark i novi val physical AI projekata

NVIDIA je u sklopu National Robotics Weeka 2026. predstavila niz novih projekata physical AI-a, uključujući RoboLab — benchmark za simulation-to-reality transfer, suradnje s Toyota Research Institute, Mimic Robotics i Doosan Robotics, te otvorene resurse za robotske policy evaluation poput Isaac Lab-Arene.