🔧 Hardware

19 Nachrichten

🟢 🔧 Hardware 23. Mai 2026 · 3 Min. Lesezeit

AMD: Gluon Block-Level-Modell ermöglicht GEMM-Kernels mit 5,255 TFLOPS MXFP4 auf Instinct MI355

Editorial-Illustration: GPU-Beschleuniger mit Matrix-Einheit-Layout und Pipeline-Flüssen

Das AMD ROCm-Team veröffentlichte ein Tutorial zum Schreiben hochperformanter GEMM-Kernels im Gluon-Programmiermodell auf dem MI355-GPU. Ein optimierter FP16-Kernel erreicht 1,489 TFLOPS bei 98,75 Prozent MFMA-Effizienz; Erweiterungen auf BF8 (3,257 TFLOPS) und MXFP4 (5,255 TFLOPS) belegen die Relevanz für moderne KI-Workloads. Das Tutorial umfasst Workgroup-Remapping und Swizzle, das L2-Cache-Misses von 5,3 Mio. auf 4,1 Mio. reduziert.

🟡 🔧 Hardware 21. Mai 2026 · 2 Min. Lesezeit

AMD: ROCm 7.13 bringt MI350P-GPU, Multi-VF-Virtualisierung und TheRock-Paketierung

Redaktionelle Illustration: AMD ROCm 7.13 mit MI350P-GPU, Multi-VF-Virtualisierung und TheRock-Modulpaketierung

AMD veröffentlichte am 20. Mai 2026 ROCm 7.13 — eine neue Version seines Open-Source-KI-Compute-Stacks mit Unterstützung für den MI350P-GPU, Virtualisierung mit bis zu 8 isolierten vGPUs je MI300X-Beschleuniger, einem Open-Source-ROCprof-Trace-Decoder und modularer TheRock-Paketierung mit domänenspezifischen SDKs. Validiert auf Ubuntu 26.04 und RHEL 9.6, mit VMware-ESXi-9.1-Support für MI350X und MI355X.

🟢 🔧 Hardware 16. Mai 2026 · 3 Min. Lesezeit

AMD ROCm: BubbleFence partitioniert Video-Streams mit Embeddings aus Vision-Foundation-Modellen statt Metadaten-Heuristiken

Redaktionelle Illustration: Video-Frames mit Embedding-Bubble-Visualisierung im 2D-Raum.

BubbleFence ist ein neues AMD-ROCm-KI-Werkzeug, das am 15. Mai 2026 angekündigt wurde und das grundlegende ML-Problem der semantischen Aufteilung von Video-Streams in Trainings-/Validierungs-/Testsets ohne semantisches Leakage löst. Statt klassischer Metadaten-basierter Heuristiken verwendet BubbleFence Vision-Foundation-Modell-Embeddings (CLIP) und adaptive Bubbles mit LID-Gewichtung für die Partitionierung. Demonstriert auf autonomem Fahren (Zenseact Open Dataset) und Minecraft-Gameplay-Szenarien ohne Konfigurationsänderungen.

🟢 🔧 Hardware 15. Mai 2026 · 2 Min. Lesezeit

AMD ROCm: Kimi-K2.5 W4A8 und W8A8 Quantisierung auf MI325X über den Quark + FlyDSL + AITER Inferenz-Stack

Editorial illustration: AMD MI325X GPU mit W4A8-Quantisierungsschicht und Inferenz-Beschleunigungssymbolen.

AMD ROCm Kimi-K2.5 Quantisierung für MI325X ist ein neues Inferenz-Beschleunigungs-Blueprint, veröffentlicht am 14. Mai 2026. Es kombiniert das AMD-Quark-Quantisierungs-Toolkit zur Konvertierung des Kimi-K2.5-Modells in W4A8- und W8A8-Präzisionsformate, die FlyDSL-Inferenz-Serving-Schicht und den AITER-Optimierungs-Stack. Der Ansatz positioniert einen Nicht-NVIDIA-Inferenzpfad für chinesische Frontier-Modelle und demonstriert AMDs Strategie, den MI325X als tragfähige Alternative zum H100/H200 für Open-Source-LLM-Serving zu etablieren.

🟡 🔧 Hardware 12. Mai 2026 · 2 Min. Lesezeit

AMD: Instinct MI355X übertrifft NVIDIA B200 bei ComfyUI-Workflows mit PyTorch-Optimierungen in ROCm 7.2.0

Editorial illustration: Instinct MI355X übertrifft NVIDIA B200 bei ComfyUI-Workflows mit PyTorch-Optimierungen in ROCm 7.2.0

AMD Instinct MI355X ist eine Rechenzentrum-GPU, die in veröffentlichten Benchmarks NVIDIA B200 bei drei generativen ComfyUI-Workflows übertrifft — Text-to-Video Wan2.2 (1,44-fach), Text-to-Image FLUX.1-dev (1,42-fach) und 3D Hunyuan3D v2.1 (1,20-fach) — dank AOTriton gfx950-Kerneln, hipBLASLt-GEMM-Tuning und weiteren ROCm-7.2.0-Optimierungen.

🟡 🔧 Hardware 12. Mai 2026 · 2 Min. Lesezeit

NVIDIA: Fleet Intelligence — verwaltete Überwachung großer GPU-Flotten mit kryptografischer Integritätsprüfung

Editorial illustration: Fleet Intelligence — verwaltete Überwachung großer GPU-Flotten mit kryptografischer Integritätsprüfung

NVIDIA Fleet Intelligence ist ein verwalteter Dienst, der große Flotten von NVIDIA-Rechenzentrum-GPUs in Echtzeit überwacht — Leistungsaufnahme, Temperatur, Performance und ECC-Fehler — mit kryptografischer GPU-Authentizitätsprüfung über den NVIDIA Remote Attestation Service. Der Dienst ist kostenlos für Besitzer von Vera-Rubin-, Blackwell- und Hopper-GPUs.

🟡 🔧 Hardware 11. Mai 2026 · 2 Min. Lesezeit

vLLM: TurboQuant-Studie zeigt FP8 bleibt superior für KV-Cache — 3bit-nc fällt ~20 pp

Editorial illustration: TurboQuant-Studie zeigt FP8 bleibt superior für KV-Cache — 3bit-nc fällt ~20 pp

TurboQuant ist eine aggressive KV-Cache-Quantisierungsmethode auf 3-4 Bit, die das Red Hat AI-Team systematisch mit dem FP8-Standard verglichen hat. Die Ergebnisse zeigen, dass FP8 Durchsatz und Genauigkeit beibehält, während 3bit-nc-Varianten bei anspruchsvollen Reasoning-Benchmarks wie AIME25 rund 20 Prozentpunkte verlieren.

🔴 🔧 Hardware 7. Mai 2026 · 2 Min. Lesezeit

NVIDIA: Spectrum-X Multipath Reliable Connection wird OCP-Offenstandard für Gigascale-KI-Netzwerke

Editorial illustration: parallele Glasfaserpfade zwischen KI-Racks mit MRC-, Spectrum-X- und OCP-Open-Standard-Beschriftungen

NVIDIA Spectrum-X Multipath Reliable Connection (MRC) ist ein RDMA-Transportprotokoll, das eine einzelne Verbindung über mehrere Netzwerkpfade verteilt und nun als offene Spezifikation über das Open Compute Project veröffentlicht wurde. MRC ist bereits bei OpenAI, Microsofts Fairwater-Rechenzentrum und Oracles Abilene-Rechenzentrum im Produktionseinsatz und wurde in Zusammenarbeit mit AMD, Broadcom, Intel und Microsoft entwickelt.

🟡 🔧 Hardware 6. Mai 2026 · 2 Min. Lesezeit

AMD: FarSkip-Collective beschleunigt MoE-Inferenz um 18–34 % auf AMD-GPUs

Redaktionelle Illustration: parallele Datenflüsse zwischen AMD-GPUs während der MoE-Inferenz ohne Leerlaufblöcke.

Das AMD-ROCm-Team stellte FarSkip-Collective vor — eine modifizierte MoE-Architektur, die GPU-Leerlaufzeiten bei Expert-Parallelism-Kommunikation eliminiert. Ergebnisse: 18 % geringerer TTFT für Llama-4 Scout, bis zu 1,34× Beschleunigung für DeepSeek-V3 und 11 % schnelleres Moonlight-Vortraining.

🟡 🔧 Hardware 5. Mai 2026 · 2 Min. Lesezeit

ArXiv SAGA: Workflow-atomares GPU-Scheduling für KI-Agenten erreicht 1,64× schnellere Task-Completion auf 64-GPU-Cluster, angenommen auf HPDC 2026

Redaktionelle Illustration: GPU-Cluster mit verbundenen Agenten-Workflows als atomare Einheiten, Symbolik für Scheduling

Das Team aus Dongxin Guo, Jikun Wu und Siu Ming Yiu präsentierte am 1. Mai 2026 SAGA — einen workflow-atomaren Scheduler für KI-Agenten auf GPU-Clustern, der den gesamten Agenten-Workflow als eine einzige planbare Einheit behandelt statt einzelner LLM-Aufrufe. Das System erreicht eine 1,64-fache geometrische Mittlere Reduzierung der Task-Abschlusszeit auf einem 64-GPU-Cluster und 99,2 % SLO-Erreichung unter Multi-Tenant-Last. Das Paper wurde für HPDC 2026 in Cleveland (13.–16. Juli 2026) angenommen.

🟢 🔧 Hardware 25. April 2026 · 2 Min. Lesezeit

AMD Primus Projection: Werkzeug zur Vorhersage von LLM-Trainingsanforderungen vor dem Start auf Instinct-GPU-Clustern

Editorial illustration: AMD Primus Projection — LLM-Trainingsvorhersage

AMD Primus Projection ist ein Werkzeug, das vor dem Start eines LLM-Trainings auf Instinct-GPU-Clustern Speicherbedarf und Durchsatz vorhersagt. Es kombiniert analytische Formeln mit echtem GPU-Benchmarking, und die Projektionen liegen innerhalb von ~10 % der gemessenen Ergebnisse auf MI325X- und MI355X-Beschleunigern für Llama- und Mixtral-Modelle.

🟢 🔧 Hardware 24. April 2026 · 3 Min. Lesezeit

Google stellt auf Cloud Next '26 TPU 8i und TPU 8t vor: spezialisierte Chips für agentisches KI-Computing

Editorial illustration: Google TPU 8i und 8t — spezialisierte KI-Chips

Google präsentierte auf der Cloud Next '26 zwei neue TPU-Chip-Generationen: TPU 8i für die KI-Agenteninterferenz und TPU 8t für das Training der komplexesten Modelle. Der Schritt formalisiert die Aufteilung von Googles TPU-Linie in zwei spezialisierte Zweige im Rahmen der 'agentischen Ära' des Computings.

🟡 🔧 Hardware 23. April 2026 · 2 Min. Lesezeit

NVIDIA und Google Cloud kündigen Zusammenarbeit für Agentic AI und Physical AI auf gemeinsamer Infrastruktur an

Editorial illustration: AI čip — hardware

NVIDIA und Google Cloud haben eine gemeinsame Zusammenarbeit angekündigt, um Agentic-AI- und Physical-AI-Workloads zu beschleunigen — dabei wird NVIDIAs GPU-Infrastruktur mit der Google Cloud Platform für Robotik, autonome Systeme und Agenten kombiniert.

🟢 🔧 Hardware 23. April 2026 · 2 Min. Lesezeit

Gemma 4 läuft als Vision Language Agent lokal auf Jetson Orin Nano Super

Redaktionelle Illustration: KI-Chip — hardware

NVIDIA und HuggingFace demonstrierten Gemma 4 als Vision Language Agent, der autonom über den Kameraeinsatz entscheidet und die gesamte Pipeline inklusive Speech-to-Text und TTS lokal auf einem NVIDIA Jetson Orin Nano Super mit 8 GB Speicher ausführt — ohne Cloud-Abhängigkeit.

🔴 🔧 Hardware 22. April 2026 · 3 Min. Lesezeit

Google stellt 8. TPU-Generation vor: zwei spezialisierte Varianten für die Ära der agentischen KI

Redaktionelle Illustration: Zwei spezialisierte TPU-Chips der 8. Generation für Training und Inferenz agentischer KI-Workloads

Auf der Cloud Next '26 stellte Google die achte Generation seiner TPU-Chips in zwei spezialisierten Varianten vor — TPU 8t für das Modelltraining und TPU 8i für agentische Inferenz. Es ist die erste Generation, die gezielt für autonome KI-Agenten und mehrstufiges Reasoning entwickelt wurde.

🟡 🔧 Hardware 21. April 2026 · 3 Min. Lesezeit

AWS G7e Blackwell-Instanzen: Qwen3-32B auf SageMaker für 0,41 $ pro Million Tokens — 4× günstigere Inferenz

Redaktionelle Illustration eines Rechenzentrums mit NVIDIA Blackwell-GPUs und GDDR7-Speichermodulen

AWS G7e-Instanzen sind neue SageMaker-GPU-Instanzen mit dem NVIDIA RTX PRO 6000 Blackwell-Chip und 96 GB GDDR7-Speicher, die bis zu 2,3× bessere Inferenz als G6e bieten. Die Kosten für Qwen3-32B sinken von 2,06 $ auf 0,79 $ pro Million Output-Tokens, und mit EAGLE-spekultativem Decoding sogar auf 0,41 $.

🟡 🔧 Hardware 16. April 2026 · 2 Min. Lesezeit

AWS: Speculative Decoding auf Trainium-Chips beschleunigt LLM-Inferenz um bis zu dreimal

Amazon Web Services hat eine detaillierte Implementierung von Speculative Decoding auf AWS-Trainium-Chips in Kombination mit dem vLLM-Framework veröffentlicht und erreicht dabei bis zu dreifach schnellere Token-Generierung für decode-intensive Arbeitslasten. Die Technik nutzt ein kleineres Draft-Modell, das die nächsten N Token vorhersagt, während ein größeres Target-Modell diese in einem einzigen Durchlauf verifiziert und so den Engpass der sequenziellen Generierung beseitigt.

🟢 🔧 Hardware 16. April 2026 · 2 Min. Lesezeit

NVIDIA: Blackwell generiert Token 35-mal günstiger als Hopper — Kosten pro Token sind die einzige Metrik

NVIDIA hat eine Analyse veröffentlicht, die argumentiert, dass die Kosten pro Token die einzige relevante Metrik für KI-Infrastruktur sind. Der Vergleich der Blackwell- und Hopper-Generationen zeigt, dass Blackwell pro GPU-Stunde doppelt so viel kostet, aber 65-mal mehr Token pro Sekunde generiert, was zu 35-mal niedrigeren Kosten pro Million Token führt — 0,12 Dollar gegenüber 4,20 Dollar für Hopper.

🟡 🔧 Hardware 10. April 2026 · 2 Min. Lesezeit

NVIDIA stellt auf der National Robotics Week den RoboLab-Benchmark und eine neue Welle von Physical-AI-Projekten vor

Im Rahmen der National Robotics Week 2026 hat NVIDIA eine Reihe neuer Physical-AI-Projekte vorgestellt, darunter RoboLab — einen Benchmark für Simulation-to-Reality-Transfer, Kooperationen mit dem Toyota Research Institute, Mimic Robotics und Doosan Robotics sowie offene Ressourcen für die Evaluierung von Roboter-Policies wie Isaac Lab-Arena.