AMD:Instinct GPU向けの新推論エンジンATOMがOpenAI互換APIとMoE最適化を提供
AMDはInstinct GPU向けの推論エンジンATOMを発表しました。OpenAI互換APIを公開し、KVキャッシュ、スケジューリング、並列性を調整します。ATOMはROCmスタックの最上位に位置し、AITERカーネルとMoRI RDMA通信を組み合わせ、TP・DP・EP並列性をサポートし、DeepSeek V2〜V4、Mixtral、Qwen3-MoEなどのMoEモデルに最適化されています。FP8、MXFP4、INT8、INT4量化とEAGLEプロポーザーを用いたMTP投機的デコーディングを提供します。
この記事はAIにより一次情報源から生成されました。
AMDはInstinct GPU向けの推論エンジンATOMを発表しました。AMDハードウェア上での大規模言語モデルの本番サービングを直接ターゲットとしています。
ATOMが提供するものとAMDスタック内での位置付けは?
ATOMはOpenAI互換APIを公開し、推論時のKVキャッシュ、スケジューリング、並列性を調整します。推論エンジンはリクエストを受け取り、GPUでのモデル実行を管理するレイヤーです。ATOMはAMDスタックの最上位に位置します:ROCmがプラットフォーム、AITERがカーネル高速化、MoRIがノード間RDMA通信、そしてATOMがサービングレイヤーです。RDMA(Remote Direct Memory Access)はCPUへの負担なしにデバイス間で直接メモリ転送を可能にします。
ATOMはどのモデルと並列性タイプをサポートしていますか?
ATOMはテンソル並列(TP)、データ並列(DP)、エキスパート並列(EP)をサポートし、特にMoE(Mixture of Experts)モデルに最適化されています。明示的に記載されたモデルにはDeepSeek V2〜V4、Mixtral、Qwen3-MoE、Kimi-K2.5、MiniMax-M2が含まれます。エキスパート並列はMoEモデルの各「エキスパート」を複数のGPUに分散させるもので、大規模MoEアーキテクチャの効率的なサービングに不可欠です。
ATOMはどのように推論を高速化しますか?
ATOMはFP8、MXFP4、INT8、INT4形式の量化を提供し、HuggingFaceのモデル設定から自動検出されます。量化は重みの精度を下げることで推論を高速化しメモリ消費を削減します。さらに、ATOMはEAGLEプロポーザーを用いたMTP投機的デコーディング、プレフィックスキャッシュ共有、高速処理のためのピースワイズコンパイルを使用します。
実際にATOMをどのように使用しますか?
ATOMはスタンドアロンで実行することも、LLMサービングの人気ライブラリであるvLLMとSGLangのプラグインとして使用することもできます。AMDはまた夜間パフォーマンス追跡を含む公開ベンチマークダッシュボードを公開しており、NVIDIAスタックの代替としてのInstinct GPUでのサービングの進捗についての透明なシグナルを提供しています。
よくある質問
- AMD ATOMとは何ですか?
- AMD Instinct GPU向けの推論エンジンで、OpenAI互換APIを提供しKVキャッシュ、スケジューリング、並列性を調整します。
- ATOMはどのモデルを最適化しますか?
- DeepSeek V2〜V4、Mixtral、Qwen3-MoE、Kimi-K2.5、MiniMax-M2などのMoEモデルです。
- ATOMはどの量化形式をサポートしますか?
- FP8、MXFP4、INT8、INT4で、HuggingFace設定から自動検出されます。