AMD:ROCm优化Matrix3D框架,在Instinct GPU上将3D世界渲染速度提升最高54%
AMD在ROCm博客上介绍了针对AMD Instinct GPU上可探索3D世界生成框架Matrix3D的优化工作。通过将CUDA专用组件替换为Triton内核,并使用gsplat库实现3DGS,MI250 GPU上的渲染速度提升了54%,MI300上提升了50%,渲染内核本身比CUDA版本快36%。
本文由人工智能基于一手来源生成。
AMD 在 ROCm博客 上介绍了针对 Matrix3D 框架的优化工作,该框架用于在 AMD Instinct GPU 上生成可探索的3D世界。ROCm 是 AMD 面向 GPU 计算的软件栈,是 NVIDIA CUDA 平台的直接竞争对手,因此将 AI 工作负载迁移到 ROCm 对于减少对单一供应商的依赖至关重要。
做了哪些改变
工程师将 CUDA 专用组件 替换为 Triton 内核——一种可移植的低级 GPU 代码——并利用 gsplat 库实现 3DGS(3D 高斯散射),这是一种从图像重建3D场景的技术。由此实现的优化专为 AMD 硬件量身定制,无需依赖 NVIDIA 的封闭生态系统。
数字化的成果
MI250 GPU 上的渲染速度提升了 54%(从2887秒降至1306秒),MI300 上提升了 50%(从972秒降至482秒)。使用 Triton 的渲染内核比 CUDA 版本快 36%,而借助 gsplat 的 3DGS 拟合成本降低了 66%。该技术正定位为空间和具身(embodied)AI 应用的基础,3D 环境生成的需求日益旺盛。
常见问题
- AMD优化了什么?
- 优化了AMD Instinct GPU上可探索3D世界生成框架Matrix3D,将CUDA专用组件替换为Triton内核,并使用gsplat库。
- 提速幅度有多大?
- MI250 GPU上渲染加速54%(从2887秒降至1306秒),MI300上加速50%(从972秒降至482秒);Triton渲染内核比CUDA版本快36%。
- 3DGS拟合有什么用?
- 3DGS(3D高斯散射)从图像重建3D场景;使用gsplat库将其成本降低了66%。