🤖 24 AI
🟡 📦 オープンソース 2026年4月21日火曜日 · 3 分で読めます

AMD FLy:トレーニング不要のSpeiculative DecodingでLlama-3.3-405Bを5.21倍高速化、精度99%超

Speculative Decodingの編集用イラスト——ドラフトモデルがトークンを提案し、ターゲットモデルが並列で検証しています

なぜ重要か

AMD FLyは、ドラフトトークンをセマンティックに受け入れることでLlama-3.3-405Bで4.80〜5.21倍、Llama-3.1-70Bで2.74倍の高速化を実現する新しいトレーニング不要のSpeculative Decoding手法です。99%超の精度を維持しながら、追加のモデルトレーニングは不要です。

AMD FLyとは何ですか?

AMDの研究者たちは2026年4月20日に、追加のモデルトレーニングなしに機能する新しいSpeculative Decoding手法であるFLyを発表しました。Speculative Decodingとは、小さく高速な「ドラフト」モデルが次の数トークンを予測し、大きな「ターゲット」モデルがそれらを並列で検証する技術です——正しければ、生成が高速化されます。

これまでのEAGLE-3などの優れた手法は、特別なドラフトモデルのトレーニングフェーズを必要としており、コストと複雑さを伴いました。FLyはその障壁を打ち破ります。トレーニング不要でトレーニングが必要な手法を上回る結果を達成します。

FLyはなぜ「間違った」トークンを受け入れられるのですか?

核心となる革新は、FLyがターゲットモデルの予測と異なっていてもセマンティックに正しいドラフトトークンを受け入れることです。従来のSpeculative DecodingはExact Matchを要求します——トークンはターゲットモデルが自身で生成するものと完全に同一でなければなりません。FLyは2段階の検証によってこのルールを緩和します:

  • エントロピーゲート — トークンごとの曖昧さのレベルを検出し、出力品質を損なうことなく不一致を受け入れられるタイミングを決定します
  • Deferred Windowメカニズム — 一時的に不一致を受け入れ、次の6トークンを遡及的検証のために追跡します。コンテキストが正しく展開すればトークンは残り、そうでなければロールバックします

このロジックにより、モデルはより多くのドラフト予測を通過させることができ、より大きな高速化をもたらします。

Llamaモデルでの実際の結果は?

AMDが提示するベンチマーク結果は印象的です:

  • Llama-3.3-405B4.80〜5.21倍の高速化
  • Llama-3.1-70B2.74倍の高速化
  • Speculative Decodingなしの出力と比較して99%超の精度

Llama-3.3 Instructベンチマークで、FLyはトレーニングが必要な現在のリーディング手法であるEAGLE-3を上回りました。これは特に重要で、ドラフトモデルのトレーニングリソースを持たない小チームでも、そのインフラを持つチームより良い結果を得られることを意味します。

AMDエコシステムにとって重要な理由

AMDはAIソフトウェアスタックでNVIDIAに長年遅れをとっており、ROCmの最適化が競争力の鍵となっています。FLyはAMDの研究チームがハードウェア固有の技術に取り組んでいることを示します——NVIDIAのアイデアを単に移植するだけでなく。

実際に、AMD MI300Xや同様のGPUですでにLlamaモデルを提供している人は誰でも、再トレーニングなし、モデル変更なし、出力品質のトレードオフなしで3〜5倍の高速化を得られます。本番システムにとってこれは直接的なコスト削減を意味します。

オープンソース推論への影響

FLyが重要な理由は、高性能推論の参入障壁を下げるからです——最先端の速度を達成するために特別にトレーニングされたドラフトモデルはもはや必要ありません。自社インフラでLlamaのようなモデルをホストするオープンソースコミュニティにとって、これは以下を意味します:

  • 大型モデルでの実験がより容易に(405Bがアクセス可能になる)
  • セルフホスト型デプロイメントでのクエリあたりコストの削減
  • EAGLE式のトレーニングリソースを持たないチームへの代替手段

この手法がROCmスタック内のオープンソース実装として公開されれば、2026年のAMD推論デプロイメントの標準になる可能性があります。

🤖

この記事はAIにより一次情報源から生成されました。