arXiv:2605.29157: Parallax局所線形アテンションがデコードフェーズをFlashAttentionの12.9倍高速化
Parallaxは大規模言語モデル向けの新しいアテンションメカニズムで、標準的なソフトマックスアテンションを局所線形推定に置き換え、FlashAttentionと比べてデコードカーネルを12.9倍高速化します。Northwestern大学の研究者らは、0.6Bおよび1.7Bパラメーターモデルの事前学習においてパープレキシティ指標の一貫した改善を示し、アテンションメカニズムにおけるアーキテクチャとオプティマイザーの強力な共同設計の初の実証と主張しています。
この記事はAIにより一次情報源から生成されました。
研究者Yifei Zuo、Dhruv Pai、Zhichen Zeng、Alec Dewulf、Shuming Hu、Zhaoran WangがParallax: Parameterized Local Linear Attention for Language Modelingを発表しました。
Parallaxがアテンションメカニズムのアーキテクチャを変える点
標準ソフトマックスアテンションは局所定数推定を使用します。Parallaxは局所線形推定にアップグレードし、KV共分散を分析する学習可能なクエリ型射影を追加します。Parallaxは数値ソルバーを排除し、ハードウェア対応アルゴリズムに置き換えます。
Parallaxの速度はどれほど速いか
プロトタイプのデコードカーネルはFlashAttention 2/3と比べて12.9倍の高速化を実現します。0.6Bおよび1.7Bパラメーターモデルでの事前学習でパープレキシティ指標の一貫した改善を示します。
Muonオプティマイザーの発見
MuonオプティマイザーはParallaxアーキテクチャの能力を特別に解放します — アテンションメカニズムにおけるアーキテクチャとオプティマイザーの強力な共同設計の初の実証です。
Parallaxが本番環境に関連する理由
デコードフェーズの12.9倍の高速化は、デコードが通常最も遅いフェーズである本番環境のレイテンシに直接影響します。
よくある質問
- Parallaxはアテンションメカニズムのアーキテクチャをどのように変えますか?
- 標準ソフトマックスアテンションの局所定数推定を局所線形推定にアップグレードし、KV共分散を分析する学習可能なクエリ型射影を追加します。数値ソルバーをハードウェア対応アルゴリズムに置き換えます。
- Muonオプティマイザーとの関係は何ですか?
- MuonオプティマイザーはParallaxアーキテクチャの能力を特別に解放します。これはアテンションメカニズムにおけるアーキテクチャとオプティマイザーの強力な共同設計の初の実証です。