🟡 🤖 モデル 公開日: · 1 分で読めます ·

AWS:P-EAGLEの並列スペキュラティブデコーディングで推論を最大3.97倍高速化

編集用イラスト:AI推論における高速並列トークンデコーディング

AWSはP-EAGLEを発表しました。これはモデルの1回のフォワードパスですべての投機トークンを予測する並列スペキュラティブデコーディング手法です。Qwen3-Coder-30B-A3BとNVIDIA B200のFP8精度において、P-EAGLEはHumanEvalでEAGLE-3の955トークン/秒に対して1167トークン/秒を達成(+22%)し、ベースライン推論と比べて最大3.97倍高速です。事前学習済みP-EAGLEヘッドはAmazon SageMaker AI上でGPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B、Gemma-4-31Bに対応しています。

🤖

この記事はAIにより一次情報源から生成されました。

AWSはAmazon SageMaker AI上で大型言語モデルの推論を大幅に高速化する並列スペキュラティブデコーディング手法P-EAGLEを発表しました。

スペキュラティブデコーディングとは何で、P-EAGLEは何を変えますか?

スペキュラティブデコーディングは、小型の「提案モデル」が複数のトークンを先読みし、メインモデルがトークンごとではなく一度にまとめて検証する技術です。従来のEAGLEはこれを逐次的に行っていました。P-EAGLEは学習済みの予約済み表現(プレースホルダー)を使用して、モデルの1回のフォワードパスですべての投機トークンを予測し、逐次的なボトルネックを解消します。

P-EAGLEはどれくらい速いですか?

Qwen3-Coder-30B-A3Bモデル、NVIDIA B200 GPU、FP8精度において、P-EAGLEはHumanEvalで毎秒1167トークンを達成し、EAGLE-3の955トークンに対して22%の改善となっています。毎秒294トークンのベースラインと比較すると、HumanEvalでは最大3.97倍、SPEED-Benchでは2.97倍の高速化となります。これはコード生成タスクにおける具体的な向上です。

実際にどう使いますか?

AWSはGPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B、Gemma-4-31B向けの事前学習済みP-EAGLEヘッドをAmazon SageMaker AI上で提供しています。これにより開発チームは提案モデルを自前でトレーニングすることなく推論を高速化でき、本番環境でのコストとレイテンシの削減に重要です。

よくある質問

スペキュラティブデコーディングとは何ですか?
小型モデルが複数のトークンを先読みし、メインモデルが1回のフォワードパスでまとめて検証する推論高速化技術です。
P-EAGLEはどれくらい推論を高速化しますか?
HumanEvalでベースライン推論と比べて最大3.97倍高速で、EAGLE-3と比べて22%高速です。
P-EAGLEヘッドはどのモデルに対応していますか?
Amazon SageMaker AI上のGPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B、Gemma-4-31Bです。