AMD Primus Projection:InstinctGPUクラスターでLLMトレーニングを開始する前にメモリと速度を予測するツール
なぜ重要か
AMD Primus ProjectionはInstinct GPUクラスターでLLMトレーニングを開始する前にメモリ要件とスループットを予測するツールです。分析式と実際のGPUベンチマークを組み合わせ、LlamaとMixtralモデルに対するMI325XとMI355Xアクセラレーターでの予測誤差は約10%以内です。
AMDはROCmブログでPrimus Projectionを発表しました——MLエンジニアがクラスター時間を何時間も費やす前に2つの実際的な質問に答えるツールです:「モデルはメモリに収まりますか?」と「どれくらいの速さでトレーニングされますか?」。このツールはAMD Instinct GPUアクセラレーターに特化しており、既存のROCmスタックと統合されます。
このツールは具体的に何を計算しますか?
Primus Projectionは分析式と実際のGPUベンチマークを組み合わせて、各トレーニングの2つの主要コンポーネントを評価します。メモリ面は3つの部分に分けられます:BF16形式のモデルパラメータ、オプティマイザー状態(FP32マスターウェイト+Adamの一次/二次モーメント、データ並列次元でシャーディング)、およびアクティベーション——パイプラインがバックワードパスのために保持する必要がある中間結果で、マイクロバッチ数とMoEルーティングファクターによってスケーリングされます。
速度予測について、ツールは2つの補完的なアプローチを提供します。利用可能なハードウェア(シングルGPUでも)で代表的なレイヤーをベンチマークし、並列化次元を除去してフルクラスターへ分析的に外挿できます——パイプライン → エキスパート → テンソル並列。あるいは、GPUが利用できない場合に役立つGEMMとアテンション分析モデリングによる純粋なCPUシミュレーションも可能です。
特に注目すべきは通信モデリングのサポートです:トポロジー認識を持つAllReduce、All-to-All、P2Pコレクティブ、および1F1B、インターリーブ、ゼロバブルなどのパイプラインスケジュール(GPUが停止する「バブル」期間を精密に計算します)。
予測の精度はどの程度ですか?
AMDによると、予測は実際のマルチノード測定結果の約10%の誤差以内に収まります。検証はLlamaのような密なモデルとMixtralのようなMoEアーキテクチャで実施され、テストハードウェアはAMDの最新InstinctチップであるMI325XとMI355Xアクセラレーターでした。
このような精度の価値は具体的です:エンジニアが512個のGPUで72時間のトレーニングが必要と見積もった場合、10%の誤差は約65〜79時間の範囲を意味します——計画、予算設定、合理的なクラスター時間の予約に十分です。
このツールは誰を対象としていますか?
主な対象者はAMDインフラで作業するMLエンジニアと研究チーム——オンプレミスInstinctクラスターかクラウドパートナーから算力を借りている場合のいずれも含みます。このツールは、「試して見る」アプローチに無制限の予算を持つチームを長年にわたって有利にしてきた実験の「盲目的な」開始という実際の障壁を取り除きます。
より広いメッセージは、AMDがROCm周辺のソフトウェアエコシステムを継続的に充実させているということです——これはNvidiaのCUDAの世界に比べて歴史的に弱点でした。Primus Projectionのようなツールと、HuggingFaceとPyTorchによるROCmサポートの増加により、AMDを代替手段として検討するチームの「スイッチングコスト」が徐々に低下しています。
この記事はAIにより一次情報源から生成されました。