🔧 硬件

19 条新闻

🟢 🔧 硬件 2026年5月23日 · 3 分钟阅读

AMD：Gluon块级模型在Instinct MI355上实现MXFP4 5.255 TFLOPS GEMM内核

AMD ROCm团队发布了在MI355 GPU上使用Gluon编程模型编写高性能GEMM内核的教程。经过优化的FP16内核达到1.489 TFLOPS，MFMA效率98.75%，扩展到BF8（3.257 TFLOPS）和MXFP4（5.255 TFLOPS）展示了对现代AI工作负载的适用性。教程包含将L2缓存未命中从530万减少到410万的工作组重映射与swizzle技术。

🟡 🔧 硬件 2026年5月21日 · 1 分钟阅读

AMD：ROCm 7.13带来MI350P GPU、多VF虚拟化与TheRock模块化打包

Editorial illustration: AMD ROCm 7.13搭载MI350P GPU、多VF虚拟化与TheRock模块化打包

AMD于2026年5月20日发布ROCm 7.13——其开源AI计算栈的新版本，引入MI350P GPU支持、每个MI300X加速器最多8个隔离vGPU虚拟化、用于透明性能分析的开源ROCprof Trace解码器，以及带有领域专用SDK的模块化TheRock打包方案。该版本已在Ubuntu 26.04和RHEL 9.6上完成验证，并包含MI350X和MI355X的VMware ESXi 9.1支持。

🟢 🔧 硬件 2026年5月16日 · 2 分钟阅读

AMD ROCm: BubbleFence通过视觉基础模型嵌入而非元数据启发式方法划分视频流

Editorial illustration: 视频帧在2D空间中带有嵌入气泡可视化。

BubbleFence是AMD ROCm于2026年5月15日发布的新AI工具，解决了将视频流语义划分为训练/验证/测试集而不产生语义泄漏的基本ML问题。与传统基于元数据的启发式方法不同，BubbleFence使用视觉基础模型嵌入（CLIP）和带LID加权的自适应气泡进行分区。在自动驾驶（Zenseact开放数据集）和Minecraft游戏场景中演示，无需更改配置。

🟢 🔧 硬件 2026年5月15日 · 2 分钟阅读

AMD ROCm: 通过 Quark + FlyDSL + AITER 推理栈在 MI325X 上实现 Kimi-K2.5 W4A8 与 W8A8 量化

编辑插图：带有 W4A8 量化层和推理加速图标的 AMD MI325X GPU 示意图。

AMD ROCm Kimi-K2.5 MI325X 量化方案是于 2026 年 5 月 14 日发布的新型推理加速蓝图。该方案结合 AMD Quark 量化工具包将 Kimi-K2.5 模型转换为 W4A8 和 W8A8 精度格式、FlyDSL 推理服务层以及 AITER 优化栈。这一方案为中国前沿模型提供了非 NVIDIA 推理路径，并展示了 AMD 将 MI325X 打造为 H100/H200 可行替代方案的策略。

🟡 🔧 硬件 2026年5月12日 · 1 分钟阅读

AMD：Instinct MI355X 在三项 ComfyUI 工作流中超越 NVIDIA B200，ROCm 7.2.0 PyTorch 优化加持

Editorial illustration: Instinct MI355X 在三项 ComfyUI 工作流中超越 NVIDIA B200，ROCm 7.2.0 PyTorch 优化加持

AMD Instinct MI355X 是数据中心 GPU，在已发布的基准测试中于三项 ComfyUI 生成工作流上超越 NVIDIA B200——文生视频 Wan2.2（1.44×）、文生图 FLUX.1-dev（1.42×）和 3D Hunyuan3D v2.1（1.20×）——得益于 AOTriton gfx950 内核、hipBLASLt GEMM 调优及 ROCm 7.2.0 中的其他优化。

🟡 🔧 硬件 2026年5月12日 · 1 分钟阅读

NVIDIA：Fleet Intelligence——大规模 GPU 集群实时管理监控与加密完整性验证

Editorial illustration: Fleet Intelligence——大规模 GPU 集群实时管理监控与加密完整性验证

NVIDIA Fleet Intelligence 是一项托管服务，可实时监控大型 NVIDIA 数据中心 GPU 机群——包括功耗、温度、性能和 ECC 错误——并通过 NVIDIA 远程证明服务（NRAS）进行加密 GPU 真实性验证。该服务对 Vera Rubin、Blackwell 和 Hopper GPU 所有者免费。

🟡 🔧 硬件 2026年5月11日 · 1 分钟阅读

vLLM: TurboQuant研究显示FP8在KV-cache中仍居优势——3bit-nc准确率下降约20个百分点

Editorial illustration: TurboQuant研究显示FP8在KV-cache量化中仍居优势——3bit-nc准确率下降约20个百分点

Red Hat AI团队对TurboQuant激进KV-cache量化方法（3-4位）与FP8标准进行了系统对比。结果显示FP8保持吞吐量和精度，而3bit-nc变体在AIME25等高难度推理基准上损失约20个百分点。

🔴 🔧 硬件 2026年5月7日 · 2 分钟阅读

NVIDIA：Spectrum-X多路径可靠连接成为OCP开放标准，面向超大规模AI网络

Editorial illustration: paralelne svjetlovodne staze između AI rack-ova s natpisom MRC, Spectrum-X i OCP open standard

NVIDIA Spectrum-X多路径可靠连接（MRC）是一种RDMA传输协议，可将单一连接分布到多条网络路径上，现已通过开放计算项目（OCP）发布为开放规范。MRC已在OpenAI、微软Fairwater数据中心和Oracle Abilene数据中心投入生产，并由AMD、博通、英特尔和微软共同参与开发。

🟡 🔧 硬件 2026年5月6日 · 1 分钟阅读

AMD: FarSkip-Collective 将 AMD GPU 上的 MoE 推理速度提升 18–34%

AMD ROCm 团队推出了 FarSkip-Collective，这是一种改进的 MoE 架构，可消除专家并行通信期间的 GPU 空闲时间。结果：Llama-4 Scout 的 TTFT 减少 18%，DeepSeek-V3 速度提升最高 1.34×，Moonlight 预训练阶段加速 11%。

🟡 🔧 硬件 2026年5月5日 · 2 分钟阅读

ArXiv SAGA：AI智能体的工作流原子化GPU调度在64-GPU集群上实现1.64倍任务完成提速，被HPDC 2026接收

Dongxin Guo、Jikun Wu和Siu Ming Yiu团队于2026年5月1日发布了SAGA——一种面向GPU集群上AI智能体的工作流原子化调度器，将整个智能体工作流视为单个可调度单元而非单次LLM调用。该系统在64-GPU集群上实现任务完成时间1.64倍的几何平均缩减，在多租户负载下SLO达成率为99.2%。论文已被HPDC 2026（克利夫兰，2026年7月13-16日）接收。

🟢 🔧 硬件 2026年4月25日 · 2 分钟阅读

AMD Primus Projection：在Instinct GPU集群上启动LLM训练前预测内存和速度的工具

AMD Primus Projection是一款在Instinct GPU集群上启动LLM训练前预测内存需求和吞吐量的工具。它结合分析公式与真实GPU基准测试，在MI325X和MI355X加速器上针对Llama和Mixtral模型的预测误差约在10%以内。

🟢 🔧 硬件 2026年4月24日 · 2 分钟阅读

Google在Cloud Next '26发布TPU 8i和TPU 8t：面向智能体AI计算的专用芯片

Google在Cloud Next '26大会上发布了两款新一代TPU芯片：面向AI智能体推理的TPU 8i和面向最复杂模型训练的TPU 8t。此举正式将Google的TPU产品线划分为「智能体时代」计算的两个专业分支。

🟡 🔧 硬件 2026年4月23日 · 2 分钟阅读

NVIDIA与Google Cloud宣布在共同基础设施上合作推进智能体AI和实体AI

NVIDIA和Google Cloud宣布合作，将NVIDIA GPU基础设施与Google Cloud平台相结合，加速机器人、自主系统和智能体领域的智能体AI和实体AI工作负载。

🟢 🔧 硬件 2026年4月23日 · 2 分钟阅读

Gemma 4在NVIDIA Jetson Orin Nano Super上本地运行视觉语言智能体

NVIDIA和HuggingFace演示了Gemma 4作为视觉语言智能体（VLA），在拥有8GB内存的NVIDIA Jetson Orin Nano Super上自主决定是否使用摄像头，并在本地完成包含语音识别和TTS在内的完整处理流水线，无需依赖云端。

🔴 🔧 硬件 2026年4月22日 · 2 分钟阅读

谷歌发布第八代TPU芯片：两种专用变体引领智能体AI时代

谷歌在Cloud Next '26大会上发布了第八代TPU芯片，推出两种专用变体——用于模型训练的TPU 8t和用于智能体推理的TPU 8i。这是该系列首款专为自主AI智能体和多步推理而设计的芯片。

🟡 🔧 硬件 2026年4月21日 · 2 分钟阅读

AWS G7e Blackwell实例：SageMaker上Qwen3-32B每百万令牌仅需0.41美元——推理成本降低4倍

数据中心配备NVIDIA Blackwell GPU和GDDR7内存模块的编辑插图

AWS G7e实例是搭载NVIDIA RTX PRO 6000 Blackwell芯片和96GB GDDR7内存的新型SageMaker GPU实例，相较G6e一代推理性能提升最高2.3倍。Qwen3-32B的成本从每百万输出令牌2.06美元降至0.79美元，配合EAGLE推测解码最低可达0.41美元。

🟡 🔧 硬件 2026年4月16日 · 2 分钟阅读

AWS：Trainium芯片上的推测解码将LLM推理速度提升至3倍

亚马逊云服务（AWS）发布了在AWS Trainium芯片上结合vLLM框架实现推测解码的详细方案，对于解码密集型工作负载实现了高达3倍的令牌生成速度提升。该技术使用较小的草稿模型预测下N个令牌，而较大的目标模型在单次前向传播中一次性验证所有令牌，消除了顺序生成的瓶颈。

🟢 🔧 硬件 2026年4月16日 · 1 分钟阅读

NVIDIA：Blackwell生成令牌的成本比Hopper低35倍——每令牌成本是唯一重要的指标

NVIDIA发布了一项分析，论证每令牌成本是AI基础设施唯一相关的指标。Blackwell与Hopper世代的比较显示，Blackwell每GPU小时成本高出两倍，但每秒生成令牌数多65倍，导致每百万令牌成本低35倍——0.12美元对比Hopper的4.20美元。

🟡 🔧 硬件 2026年4月10日 · 1 分钟阅读

NVIDIA在National Robotics Week上推出RoboLab基准测试及新一波物理AI项目

NVIDIA在2026年National Robotics Week期间推出了一系列新的物理AI项目，包括RoboLab——用于模拟到现实迁移的基准测试、与Toyota Research Institute、Mimic Robotics和Doosan Robotics的合作，以及用于机器人策略评估的开放资源（如Isaac Lab-Arena）。