🔴 🤖 モデル 公開日: · 4 分で読めます ·

arXiv:2605.15514: RoPEは長いコンテキストで位置もトークンも区別できない――基本的限界の理論的証明

arXiv:2605.15514 ↗

Editorial illustration: arXiv論文2605.15514がRoPE位置エンコーディングの根本的限界を理論的に証明――長コンテキストで位置とトークンの区別能力を失う

arXiv論文2605.15514は、Llama・Mistral・Qwen・GPT-NeoXを含むほぼすべての現代的な大規模言語モデルが使用するRotary Positional Embeddings(RoPE)が、長いコンテキストで位置とトークンを区別する能力を失うことを数学的に証明しています。著者らは根本的に新しいアーキテクチャメカニズムが必要と結論付けています。

🤖

この記事はAIにより一次情報源から生成されました。

RoPEとは何か、なぜすべての現代LLMにとって重要なのか

大規模言語モデル(LLM)はTransformerアーキテクチャに基づいており、シーケンス中の各トークンがどこに位置するかをアーキテクチャ自体は把握できません。位置エンコーディングはこの問題を解決します。各トークンにコンテキスト中の位置情報を割り当てます。これがなければ、モデルは「犬が人を噛む」と「人が犬を噛む」を区別できないでしょう。

Rotary Positional Embeddings(RoPE)は今日このタスクの主要スタンダードです。2021年の論文で導入され、以来ほぼすべての関連アーキテクチャの構成要素となっています。すべての世代のMeta Llama、Mistral、Qwen、GPT-NeoX、そして多くの派生アーキテクチャが含まれます。RoPEはベクトル空間における回転を通じてトークン間の相対位置をエンコードします――短〜中程度の長さのコンテキストでは良好に機能するエレガントな数学的解決策です。

RoPEは長いコンテキストで数学的に何ができないのか

新しいarXiv論文(2605.15514)「RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably」(著者:Yufeng Du、Phillip Harris、Minyang Tian、Eliu A. Huerta、Srikanth Ronanki、Subendhu Rongali、Aram Galstyan、Hao Peng)は、2つの根本的な限界の正式な理論的証明を提示しています。

局所位置バイアスの喪失。 通常の動作では、アテンションメカニズムは近いトークンを優先するべきです――意味的なコンテキストは通常、遠い段落ではなく隣接する文から得られます。著者らは、コンテキスト長が増大するにつれてRoPEがこのバイアスを示さなくなることを証明しています。モデルが位置1のトークンと位置10,000のトークンに等しくアテンションを向ける確率になります。近い位置と遠い位置を区別するエラー率は50%に収束します。

トークン一貫性の喪失。 さらに深刻な問題は、同じトークンがコンテキスト内の異なる位置で正反対のアテンションスコアを受ける可能性があることです。ある位置で高いアテンションを受ける重要なベクトルが、別の位置では低いアテンションを受ける可能性があります――意味的な理由なしに。さらに、トークンが移動または別のトークンに置き換えられても、アテンションスコアが変わらない場合があります。

両方の劣化効果は、理論的な分析において50%のエラー率に収束します――これは実質的にランダムな推測と等価です。

長コンテキストLLMへの影響

実際の影響は重大です。近年、業界はLLMのコンテキストウィンドウの拡張に積極的に取り組んできました――4,000トークンから128,000、100万、それ以上へと。モデルは長文書、知識ベース、複雑なクエリを処理する能力でマーケティングされています。この論文は、RoPEを使用するすべてのアーキテクチャにおけるその能力の基盤を数学的に疑問視しています。

著者らは特に、既存のRoPEフレームワーク内で問題を解決できるかどうかを検討しました。コンテキストウィンドウの拡張にすでに使用されている基底パラメータ(RoPE base)の調整は、逆の関係を示します。基数を増やすとトークンの区別が改善しますが、位置の区別を犠牲にします。これは根本的なトレードオフであり、パッチを当てることができる技術的詳細ではありません。より深いネットワークもマルチヘッドアテンションアーキテクチャも、この理論的な限界を解消できません。

次のステップ――新しい位置メカニズムへ?

著者らは、RoPEがすべての主要アーキテクチャに深く統合されていることは、問題が以前から知られていたり受け入れられていたことを意味するのではなく、今ようやく正式に証明されたことを意味すると結論付けています。彼らの推奨は明確です。TransformerモデルにおけるトークンとGF位置順序のエンコーディングに、根本的に新しいメカニズムが必要です。

35ページ11図のこの論文は、理論的ツールを用いて――単なる実証的なベンチマークテストではなく――LLM一世代全体の根本的なアーキテクチャの弱点を捉えた稀な研究の一つです。これがMeta AI、Mistral AI、またはAlibabaのQwenなどの研究機関の次世代モデルにおける位置エンコーディングの再設計を促すかどうかは、未解決の問いです。

よくある質問

RoPEとは何ですか?
Rotary Positional Embeddings(RoPE)は、Transformerモデルがテキスト中のトークンの順序を区別できるようにする数学的メカニズムです。ベクトル空間における回転を使用してトークン間の相対位置をエンコードし、ほとんどの現代的な大規模言語モデルに存在します。
この結果はどのモデルに影響しますか?
実質的にすべての主要な長コンテキストモデルファミリーが影響を受けます。Meta Llama(全バージョン)、Mistral、Qwen、GPT-NeoX、およびこれらに基づくすべての派生アーキテクチャです。RoPEは今日のTransformerにおける位置エンコーディングのデファクトスタンダードです。
RoPEのパラメータを調整することで問題を解決できますか?
妥協なしには解決できません。著者らは、RoPEの基底パラメータを変更すると逆の関係が生じることを証明しています。トークンの区別を改善すると位置の区別を犠牲にし、逆もまた然りです。マルチヘッドやマルチレイヤーの設計ではこの根本的な限界を解消できません。