この文脈で「トレーニング不要」とはどういう意味ですか？

FLyはドラフトモデルとターゲットモデルのどちらも追加トレーニングを必要としません——すでにトレーニングされたLlamaに、いかなるファインチューニングなしで適用できます。EAGLE-3などの従来手法はドラフトモデルの特別なトレーニングフェーズを必要とし、時間とGPUリソースを消費します。

Exact MatchとセマンティックAcceptanceの違いは何ですか？

従来のSpeculative Decodingはターゲットモデルが生成するトークンと完全に一致するドラフトトークンのみを受け入れます。FLyは完全に同一でなくてもセマンティックに正しいトークンも受け入れます——これによりより多くのドラフト予測が通過し、生成が高速化されます。

FLyから最も恩恵を受けるのは誰ですか？

AMDハードウェアで大型Llamaモデルを提供しているすべての人——研究ラボから本番推論プロバイダーまで。3〜5倍の高速化はトークンあたりのコストと応答時間の比例的な削減を意味し、再トレーニングは不要です。

AMD FLy：再トレーニングなしでLlamaを5.21倍高速化

AMD FLyとは何ですか？

AMDの研究者たちは2026年4月20日に、追加のモデルトレーニングなしに機能する新しいSpeculative Decoding手法であるFLyを発表しました。Speculative Decodingとは、小さく高速な「ドラフト」モデルが次の数トークンを予測し、大きな「ターゲット」モデルがそれらを並列で検証する技術です——正しければ、生成が高速化されます。

これまでのEAGLE-3などの優れた手法は、特別なドラフトモデルのトレーニングフェーズを必要としており、コストと複雑さを伴いました。FLyはその障壁を打ち破ります。トレーニング不要でトレーニングが必要な手法を上回る結果を達成します。

FLyはなぜ「間違った」トークンを受け入れられるのですか？

核心となる革新は、FLyがターゲットモデルの予測と異なっていてもセマンティックに正しいドラフトトークンを受け入れることです。従来のSpeculative DecodingはExact Matchを要求します——トークンはターゲットモデルが自身で生成するものと完全に同一でなければなりません。FLyは2段階の検証によってこのルールを緩和します：

エントロピーゲート — トークンごとの曖昧さのレベルを検出し、出力品質を損なうことなく不一致を受け入れられるタイミングを決定します
Deferred Windowメカニズム — 一時的に不一致を受け入れ、次の6トークンを遡及的検証のために追跡します。コンテキストが正しく展開すればトークンは残り、そうでなければロールバックします

このロジックにより、モデルはより多くのドラフト予測を通過させることができ、より大きな高速化をもたらします。

Llamaモデルでの実際の結果は？

AMDが提示するベンチマーク結果は印象的です：

Llama-3.3-405B — 4.80〜5.21倍の高速化
Llama-3.1-70B — 2.74倍の高速化
Speculative Decodingなしの出力と比較して99%超の精度

Llama-3.3 Instructベンチマークで、FLyはトレーニングが必要な現在のリーディング手法であるEAGLE-3を上回りました。これは特に重要で、ドラフトモデルのトレーニングリソースを持たない小チームでも、そのインフラを持つチームより良い結果を得られることを意味します。

AMDエコシステムにとって重要な理由

AMDはAIソフトウェアスタックでNVIDIAに長年遅れをとっており、ROCmの最適化が競争力の鍵となっています。FLyはAMDの研究チームがハードウェア固有の技術に取り組んでいることを示します——NVIDIAのアイデアを単に移植するだけでなく。

実際に、AMD MI300Xや同様のGPUですでにLlamaモデルを提供している人は誰でも、再トレーニングなし、モデル変更なし、出力品質のトレードオフなしで3〜5倍の高速化を得られます。本番システムにとってこれは直接的なコスト削減を意味します。

オープンソース推論への影響

FLyが重要な理由は、高性能推論の参入障壁を下げるからです——最先端の速度を達成するために特別にトレーニングされたドラフトモデルはもはや必要ありません。自社インフラでLlamaのようなモデルをホストするオープンソースコミュニティにとって、これは以下を意味します：

大型モデルでの実験がより容易に（405Bがアクセス可能になる）
セルフホスト型デプロイメントでのクエリあたりコストの削減
EAGLE式のトレーニングリソースを持たないチームへの代替手段

この手法がROCmスタック内のオープンソース実装として公開されれば、2026年のAMD推論デプロイメントの標準になる可能性があります。

AMD FLy：トレーニング不要のSpeiculative DecodingでLlama-3.3-405Bを5.21倍高速化、精度99%超

AMD FLyとは何ですか？

FLyはなぜ「間違った」トークンを受け入れられるのですか？

Llamaモデルでの実際の結果は？

AMDエコシステムにとって重要な理由

オープンソース推論への影響

出典

関連ニュース