🔧 硬件

19 条新闻

🟢 🔧 硬件 2026年5月23日 · 3 分钟阅读

AMD:Gluon块级模型在Instinct MI355上实现MXFP4 5.255 TFLOPS GEMM内核

编辑插图:带矩阵单元布局和流水线流的 GPU 加速器

AMD ROCm团队发布了在MI355 GPU上使用Gluon编程模型编写高性能GEMM内核的教程。经过优化的FP16内核达到1.489 TFLOPS,MFMA效率98.75%,扩展到BF8(3.257 TFLOPS)和MXFP4(5.255 TFLOPS)展示了对现代AI工作负载的适用性。教程包含将L2缓存未命中从530万减少到410万的工作组重映射与swizzle技术。

🟡 🔧 硬件 2026年5月21日 · 1 分钟阅读

AMD:ROCm 7.13带来MI350P GPU、多VF虚拟化与TheRock模块化打包

Editorial illustration: AMD ROCm 7.13搭载MI350P GPU、多VF虚拟化与TheRock模块化打包

AMD于2026年5月20日发布ROCm 7.13——其开源AI计算栈的新版本,引入MI350P GPU支持、每个MI300X加速器最多8个隔离vGPU虚拟化、用于透明性能分析的开源ROCprof Trace解码器,以及带有领域专用SDK的模块化TheRock打包方案。该版本已在Ubuntu 26.04和RHEL 9.6上完成验证,并包含MI350X和MI355X的VMware ESXi 9.1支持。

🟢 🔧 硬件 2026年5月16日 · 2 分钟阅读

AMD ROCm: BubbleFence通过视觉基础模型嵌入而非元数据启发式方法划分视频流

Editorial illustration: 视频帧在2D空间中带有嵌入气泡可视化。

BubbleFence是AMD ROCm于2026年5月15日发布的新AI工具,解决了将视频流语义划分为训练/验证/测试集而不产生语义泄漏的基本ML问题。与传统基于元数据的启发式方法不同,BubbleFence使用视觉基础模型嵌入(CLIP)和带LID加权的自适应气泡进行分区。在自动驾驶(Zenseact开放数据集)和Minecraft游戏场景中演示,无需更改配置。

🟢 🔧 硬件 2026年5月15日 · 2 分钟阅读

AMD ROCm: 通过 Quark + FlyDSL + AITER 推理栈在 MI325X 上实现 Kimi-K2.5 W4A8 与 W8A8 量化

编辑插图:带有 W4A8 量化层和推理加速图标的 AMD MI325X GPU 示意图。

AMD ROCm Kimi-K2.5 MI325X 量化方案是于 2026 年 5 月 14 日发布的新型推理加速蓝图。该方案结合 AMD Quark 量化工具包将 Kimi-K2.5 模型转换为 W4A8 和 W8A8 精度格式、FlyDSL 推理服务层以及 AITER 优化栈。这一方案为中国前沿模型提供了非 NVIDIA 推理路径,并展示了 AMD 将 MI325X 打造为 H100/H200 可行替代方案的策略。

🟡 🔧 硬件 2026年5月12日 · 1 分钟阅读

AMD:Instinct MI355X 在三项 ComfyUI 工作流中超越 NVIDIA B200,ROCm 7.2.0 PyTorch 优化加持

Editorial illustration: Instinct MI355X 在三项 ComfyUI 工作流中超越 NVIDIA B200,ROCm 7.2.0 PyTorch 优化加持

AMD Instinct MI355X 是数据中心 GPU,在已发布的基准测试中于三项 ComfyUI 生成工作流上超越 NVIDIA B200——文生视频 Wan2.2(1.44×)、文生图 FLUX.1-dev(1.42×)和 3D Hunyuan3D v2.1(1.20×)——得益于 AOTriton gfx950 内核、hipBLASLt GEMM 调优及 ROCm 7.2.0 中的其他优化。

🟡 🔧 硬件 2026年5月12日 · 1 分钟阅读

NVIDIA:Fleet Intelligence——大规模 GPU 集群实时管理监控与加密完整性验证

Editorial illustration: Fleet Intelligence——大规模 GPU 集群实时管理监控与加密完整性验证

NVIDIA Fleet Intelligence 是一项托管服务,可实时监控大型 NVIDIA 数据中心 GPU 机群——包括功耗、温度、性能和 ECC 错误——并通过 NVIDIA 远程证明服务(NRAS)进行加密 GPU 真实性验证。该服务对 Vera Rubin、Blackwell 和 Hopper GPU 所有者免费。

🟡 🔧 硬件 2026年5月11日 · 1 分钟阅读

vLLM: TurboQuant研究显示FP8在KV-cache中仍居优势——3bit-nc准确率下降约20个百分点

Editorial illustration: TurboQuant研究显示FP8在KV-cache量化中仍居优势——3bit-nc准确率下降约20个百分点

Red Hat AI团队对TurboQuant激进KV-cache量化方法(3-4位)与FP8标准进行了系统对比。结果显示FP8保持吞吐量和精度,而3bit-nc变体在AIME25等高难度推理基准上损失约20个百分点。

🔴 🔧 硬件 2026年5月7日 · 2 分钟阅读

NVIDIA:Spectrum-X多路径可靠连接成为OCP开放标准,面向超大规模AI网络

Editorial illustration: paralelne svjetlovodne staze između AI rack-ova s natpisom MRC, Spectrum-X i OCP open standard

NVIDIA Spectrum-X多路径可靠连接(MRC)是一种RDMA传输协议,可将单一连接分布到多条网络路径上,现已通过开放计算项目(OCP)发布为开放规范。MRC已在OpenAI、微软Fairwater数据中心和Oracle Abilene数据中心投入生产,并由AMD、博通、英特尔和微软共同参与开发。

🟡 🔧 硬件 2026年5月6日 · 1 分钟阅读

AMD: FarSkip-Collective 将 AMD GPU 上的 MoE 推理速度提升 18–34%

编辑插图:AMD GPU 之间的 MoE 推理中无空闲块的并行数据流

AMD ROCm 团队推出了 FarSkip-Collective,这是一种改进的 MoE 架构,可消除专家并行通信期间的 GPU 空闲时间。结果:Llama-4 Scout 的 TTFT 减少 18%,DeepSeek-V3 速度提升最高 1.34×,Moonlight 预训练阶段加速 11%。

🟡 🔧 硬件 2026年5月5日 · 2 分钟阅读

ArXiv SAGA:AI智能体的工作流原子化GPU调度在64-GPU集群上实现1.64倍任务完成提速,被HPDC 2026接收

编辑插图:GPU集群与作为原子单元连接的智能体工作流,调度的象征

Dongxin Guo、Jikun Wu和Siu Ming Yiu团队于2026年5月1日发布了SAGA——一种面向GPU集群上AI智能体的工作流原子化调度器,将整个智能体工作流视为单个可调度单元而非单次LLM调用。该系统在64-GPU集群上实现任务完成时间1.64倍的几何平均缩减,在多租户负载下SLO达成率为99.2%。论文已被HPDC 2026(克利夫兰,2026年7月13-16日)接收。

🟢 🔧 硬件 2026年4月25日 · 2 分钟阅读

AMD Primus Projection:在Instinct GPU集群上启动LLM训练前预测内存和速度的工具

编辑插图:AMD Primus Projection——LLM训练预测

AMD Primus Projection是一款在Instinct GPU集群上启动LLM训练前预测内存需求和吞吐量的工具。它结合分析公式与真实GPU基准测试,在MI325X和MI355X加速器上针对Llama和Mixtral模型的预测误差约在10%以内。

🟢 🔧 硬件 2026年4月24日 · 2 分钟阅读

Google在Cloud Next '26发布TPU 8i和TPU 8t:面向智能体AI计算的专用芯片

编辑插图:Google TPU 8i和8t——专用AI芯片

Google在Cloud Next '26大会上发布了两款新一代TPU芯片:面向AI智能体推理的TPU 8i和面向最复杂模型训练的TPU 8t。此举正式将Google的TPU产品线划分为「智能体时代」计算的两个专业分支。

🟡 🔧 硬件 2026年4月23日 · 2 分钟阅读

NVIDIA与Google Cloud宣布在共同基础设施上合作推进智能体AI和实体AI

编辑插图:AI芯片——hardware

NVIDIA和Google Cloud宣布合作,将NVIDIA GPU基础设施与Google Cloud平台相结合,加速机器人、自主系统和智能体领域的智能体AI和实体AI工作负载。

🟢 🔧 硬件 2026年4月23日 · 2 分钟阅读

Gemma 4在NVIDIA Jetson Orin Nano Super上本地运行视觉语言智能体

编辑插图:AI芯片 — hardware

NVIDIA和HuggingFace演示了Gemma 4作为视觉语言智能体(VLA),在拥有8GB内存的NVIDIA Jetson Orin Nano Super上自主决定是否使用摄像头,并在本地完成包含语音识别和TTS在内的完整处理流水线,无需依赖云端。

🔴 🔧 硬件 2026年4月22日 · 2 分钟阅读

谷歌发布第八代TPU芯片:两种专用变体引领智能体AI时代

编辑插图:第八代两种专用TPU芯片分别用于智能体AI工作负载的训练与推理

谷歌在Cloud Next '26大会上发布了第八代TPU芯片,推出两种专用变体——用于模型训练的TPU 8t和用于智能体推理的TPU 8i。这是该系列首款专为自主AI智能体和多步推理而设计的芯片。

🟡 🔧 硬件 2026年4月21日 · 2 分钟阅读

AWS G7e Blackwell实例:SageMaker上Qwen3-32B每百万令牌仅需0.41美元——推理成本降低4倍

数据中心配备NVIDIA Blackwell GPU和GDDR7内存模块的编辑插图

AWS G7e实例是搭载NVIDIA RTX PRO 6000 Blackwell芯片和96GB GDDR7内存的新型SageMaker GPU实例,相较G6e一代推理性能提升最高2.3倍。Qwen3-32B的成本从每百万输出令牌2.06美元降至0.79美元,配合EAGLE推测解码最低可达0.41美元。

🟡 🔧 硬件 2026年4月16日 · 2 分钟阅读

AWS:Trainium芯片上的推测解码将LLM推理速度提升至3倍

亚马逊云服务(AWS)发布了在AWS Trainium芯片上结合vLLM框架实现推测解码的详细方案,对于解码密集型工作负载实现了高达3倍的令牌生成速度提升。该技术使用较小的草稿模型预测下N个令牌,而较大的目标模型在单次前向传播中一次性验证所有令牌,消除了顺序生成的瓶颈。

🟢 🔧 硬件 2026年4月16日 · 1 分钟阅读

NVIDIA:Blackwell生成令牌的成本比Hopper低35倍——每令牌成本是唯一重要的指标

NVIDIA发布了一项分析,论证每令牌成本是AI基础设施唯一相关的指标。Blackwell与Hopper世代的比较显示,Blackwell每GPU小时成本高出两倍,但每秒生成令牌数多65倍,导致每百万令牌成本低35倍——0.12美元对比Hopper的4.20美元。

🟡 🔧 硬件 2026年4月10日 · 1 分钟阅读

NVIDIA在National Robotics Week上推出RoboLab基准测试及新一波物理AI项目

NVIDIA在2026年National Robotics Week期间推出了一系列新的物理AI项目,包括RoboLab——用于模拟到现实迁移的基准测试、与Toyota Research Institute、Mimic Robotics和Doosan Robotics的合作,以及用于机器人策略评估的开放资源(如Isaac Lab-Arena)。