AMD: ROCm-Optimierung von Matrix3D für 3D-Welten beschleunigt Rendering auf Instinct-GPUs um bis zu 54 Prozent
AMD beschreibt im ROCm-Blog die Optimierung des Matrix3D-Frameworks zur Generierung erkundbarer 3D-Welten auf AMD-Instinct-GPUs. Durch den Ersatz CUDA-spezifischer Komponenten durch Triton-Kernel und die Nutzung der gsplat-Bibliothek für 3DGS wurde das Rendering auf der MI250-GPU um 54 Prozent und auf der MI300 um 50 Prozent beschleunigt; der Rendering-Kernel selbst ist 36 Prozent schneller als die CUDA-Version.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
AMD beschreibt im ROCm-Blog die Optimierung des Matrix3D-Frameworks zur Generierung erkundbarer 3D-Welten auf AMD-Instinct-GPUs. ROCm ist AMDs Software-Stack für GPU-Computing und direkter Konkurrent zu NVIDIAs CUDA-Plattform; die Portierung von KI-Workloads auf ROCm ist daher wichtig, um die Abhängigkeit von einem einzigen Anbieter zu reduzieren.
Was sich geändert hat
Ingenieure ersetzten CUDA-spezifische Komponenten durch Triton-Kernel — portablen Low-Level-GPU-Code — und nutzten die gsplat-Bibliothek für 3DGS (3D Gaussian Splatting), eine Technik zur Rekonstruktion von 3D-Szenen aus Bildern. Damit wurde die Optimierung an AMD-Hardware angepasst, ohne auf NVIDIAs geschlossenes Ökosystem angewiesen zu sein.
Ergebnisse in Zahlen
Das Rendering auf der MI250-GPU wurde um 54 Prozent beschleunigt (von 2887 auf 1306 Sekunden), auf der MI300 um 50 Prozent (von 972 auf 482 Sekunden). Der Triton-basierte Rendering-Kernel ist 36 Prozent schneller als die CUDA-Version, während das 3DGS-Fitting mit gsplat 66 Prozent günstiger ist. Die Technologie positioniert sich als Grundlage für räumliche und verkörperte KI-Anwendungen, bei denen die Generierung von 3D-Umgebungen zunehmend gefragt ist.
Häufig gestellte Fragen
- Was hat AMD optimiert?
- AMD optimierte das Matrix3D-Framework zur Generierung erkundbarer 3D-Welten auf AMD-Instinct-GPUs, indem CUDA-spezifische Komponenten durch Triton-Kernel ersetzt und die gsplat-Bibliothek verwendet wurden.
- Wie groß ist die Beschleunigung?
- Das Rendering auf der MI250-GPU ist 54 Prozent schneller (von 2887 auf 1306 Sekunden), auf der MI300 50 Prozent (von 972 auf 482 Sekunden); der Rendering-Kernel selbst ist 36 Prozent schneller als die CUDA-Version.
- Wozu dient 3DGS-Fitting?
- 3DGS (3D Gaussian Splatting) rekonstruiert 3D-Szenen aus Bildern; die Verwendung der gsplat-Bibliothek senkte die Kosten um 66 Prozent.
Verwandte Nachrichten
AMD: Analyse von RoCE-Netzwerkverkehrsmustern beim Training großer Sprachmodelle
AMD: Open-source Schola verbindet Unreal Engine und Reinforcement Learning für Roboterarm-Training auf ROCm
AMD: Instinct MI355X bei MLPerf Training v6.0 nur 5% hinter NVIDIA, 3,5× schneller als Vorgänger