🔧 Hardware

9 Nachrichten

🟢 🔧 Hardware 25. April 2026 · 2 Min. Lesezeit

AMD Primus Projection: Werkzeug zur Vorhersage von LLM-Trainingsanforderungen vor dem Start auf Instinct-GPU-Clustern

Editorial illustration: AMD Primus Projection — LLM-Trainingsvorhersage

AMD Primus Projection ist ein Werkzeug, das vor dem Start eines LLM-Trainings auf Instinct-GPU-Clustern Speicherbedarf und Durchsatz vorhersagt. Es kombiniert analytische Formeln mit echtem GPU-Benchmarking, und die Projektionen liegen innerhalb von ~10 % der gemessenen Ergebnisse auf MI325X- und MI355X-Beschleunigern für Llama- und Mixtral-Modelle.

🟢 🔧 Hardware 24. April 2026 · 3 Min. Lesezeit

Google stellt auf Cloud Next '26 TPU 8i und TPU 8t vor: spezialisierte Chips für agentisches KI-Computing

Editorial illustration: Google TPU 8i und 8t — spezialisierte KI-Chips

Google präsentierte auf der Cloud Next '26 zwei neue TPU-Chip-Generationen: TPU 8i für die KI-Agenteninterferenz und TPU 8t für das Training der komplexesten Modelle. Der Schritt formalisiert die Aufteilung von Googles TPU-Linie in zwei spezialisierte Zweige im Rahmen der 'agentischen Ära' des Computings.

🟡 🔧 Hardware 23. April 2026 · 2 Min. Lesezeit

NVIDIA und Google Cloud kündigen Zusammenarbeit für Agentic AI und Physical AI auf gemeinsamer Infrastruktur an

Editorial illustration: AI čip — hardware

NVIDIA und Google Cloud haben eine gemeinsame Zusammenarbeit angekündigt, um Agentic-AI- und Physical-AI-Workloads zu beschleunigen — dabei wird NVIDIAs GPU-Infrastruktur mit der Google Cloud Platform für Robotik, autonome Systeme und Agenten kombiniert.

🟢 🔧 Hardware 23. April 2026 · 2 Min. Lesezeit

Gemma 4 läuft als Vision Language Agent lokal auf Jetson Orin Nano Super

Redaktionelle Illustration: KI-Chip — hardware

NVIDIA und HuggingFace demonstrierten Gemma 4 als Vision Language Agent, der autonom über den Kameraeinsatz entscheidet und die gesamte Pipeline inklusive Speech-to-Text und TTS lokal auf einem NVIDIA Jetson Orin Nano Super mit 8 GB Speicher ausführt — ohne Cloud-Abhängigkeit.

🔴 🔧 Hardware 22. April 2026 · 3 Min. Lesezeit

Google stellt 8. TPU-Generation vor: zwei spezialisierte Varianten für die Ära der agentischen KI

Redaktionelle Illustration: Zwei spezialisierte TPU-Chips der 8. Generation für Training und Inferenz agentischer KI-Workloads

Auf der Cloud Next '26 stellte Google die achte Generation seiner TPU-Chips in zwei spezialisierten Varianten vor — TPU 8t für das Modelltraining und TPU 8i für agentische Inferenz. Es ist die erste Generation, die gezielt für autonome KI-Agenten und mehrstufiges Reasoning entwickelt wurde.

🟡 🔧 Hardware 21. April 2026 · 3 Min. Lesezeit

AWS G7e Blackwell-Instanzen: Qwen3-32B auf SageMaker für 0,41 $ pro Million Tokens — 4× günstigere Inferenz

Redaktionelle Illustration eines Rechenzentrums mit NVIDIA Blackwell-GPUs und GDDR7-Speichermodulen

AWS G7e-Instanzen sind neue SageMaker-GPU-Instanzen mit dem NVIDIA RTX PRO 6000 Blackwell-Chip und 96 GB GDDR7-Speicher, die bis zu 2,3× bessere Inferenz als G6e bieten. Die Kosten für Qwen3-32B sinken von 2,06 $ auf 0,79 $ pro Million Output-Tokens, und mit EAGLE-spekultativem Decoding sogar auf 0,41 $.

🟡 🔧 Hardware 16. April 2026 · 2 Min. Lesezeit

AWS: Speculative Decoding auf Trainium-Chips beschleunigt LLM-Inferenz um bis zu dreimal

Amazon Web Services hat eine detaillierte Implementierung von Speculative Decoding auf AWS-Trainium-Chips in Kombination mit dem vLLM-Framework veröffentlicht und erreicht dabei bis zu dreifach schnellere Token-Generierung für decode-intensive Arbeitslasten. Die Technik nutzt ein kleineres Draft-Modell, das die nächsten N Token vorhersagt, während ein größeres Target-Modell diese in einem einzigen Durchlauf verifiziert und so den Engpass der sequenziellen Generierung beseitigt.

🟢 🔧 Hardware 16. April 2026 · 2 Min. Lesezeit

NVIDIA: Blackwell generiert Token 35-mal günstiger als Hopper — Kosten pro Token sind die einzige Metrik

NVIDIA hat eine Analyse veröffentlicht, die argumentiert, dass die Kosten pro Token die einzige relevante Metrik für KI-Infrastruktur sind. Der Vergleich der Blackwell- und Hopper-Generationen zeigt, dass Blackwell pro GPU-Stunde doppelt so viel kostet, aber 65-mal mehr Token pro Sekunde generiert, was zu 35-mal niedrigeren Kosten pro Million Token führt — 0,12 Dollar gegenüber 4,20 Dollar für Hopper.

🟡 🔧 Hardware 10. April 2026 · 2 Min. Lesezeit

NVIDIA stellt auf der National Robotics Week den RoboLab-Benchmark und eine neue Welle von Physical-AI-Projekten vor

Im Rahmen der National Robotics Week 2026 hat NVIDIA eine Reihe neuer Physical-AI-Projekte vorgestellt, darunter RoboLab — einen Benchmark für Simulation-to-Reality-Transfer, Kooperationen mit dem Toyota Research Institute, Mimic Robotics und Doosan Robotics sowie offene Ressourcen für die Evaluierung von Roboter-Policies wie Isaac Lab-Arena.