基礎
アテンション機構(attention)
ニューラルネットワークの技術で、モデルが各入力トークンの重要度を他のトークンとの関係で重み付けできるようにします。現代のトランスフォーマーアーキテクチャの中核となる仕組みです。
**アテンション機構(attention)**は、ニューラルネットワークにおける技術で、入力シーケンスの各位置に対して、出力を生成する際に他のすべての位置がどれほど重要かをモデルが判断できるようにします。トークンを厳密に順次処理する代わりに、アテンションは位置の各ペアに重みを割り当て、それに従って情報を集約します。
現代AIで主流となっているのはセルフアテンションで、ここではquery、key、valueベクトルがすべて同じシーケンスから派生します。各トークンは他のすべてのトークンとの類似度を計算し、それらをsoftmaxに通して重みを得て、最終的にvalueベクトルの重み付き和を出力とします。マルチヘッドアテンションは、同じ操作を学習された複数の部分空間で並列に実行します。
アテンションは2014年に機械翻訳のために導入され(Bahdanau他)、2017年の論文 Attention Is All You Need で中心的な構成要素となり、トランスフォーマーアーキテクチャを定義しました。再帰を排除して純粋なアテンションに置き換えたことで、GPU上での大規模並列化が可能となり、今日の大規模言語モデルが実用的になりました。
Flash Attention、Sliding-Window Attention、Grouped-Query Attentionといった派生は、メモリと計算量を削減し、コンテキスト長を数千トークンから数百万トークンへと拡大することを可能にしました。