基礎
トランスフォーマー
2017年に発表されたニューラルネットワークアーキテクチャで、現代のほぼすべての大規模言語モデルを支えています。Self-Attention機構を中核に持ちます。
トランスフォーマーは、2017年の論文 Attention Is All You Need(Vaswani他、Google)で発表された深層学習アーキテクチャです。言語タスクにおける従来の再帰型ニューラルネットワーク(RNN、LSTM)を置き換え、現在ではほぼすべての最先端大規模言語モデルの基盤となっています。GPT、Claude、Gemini、Llama、Mistral、DeepSeekはいずれもトランスフォーマーを採用しています。
トランスフォーマーの核心的な革新はSelf-Attention機構です。これにより、シーケンス内のすべての位置が他のすべての位置を並列に「参照」できるようになります。RNNの逐次処理というボトルネックを解消し、より長い文脈での訓練を可能にし、現代のGPUやTPU上で効率よくスケールします。
トランスフォーマー層は、Multi-Head Self-Attention(データの関係性を複数の「視点」で捉える)、フィードフォワードネットワーク、Layer Normalization、残差接続を組み合わせています。モデルはこのような層を24から100以上スタックします。バリエーションとして、エンコーダーのみ(BERT)、デコーダーのみ(GPTファミリー)、エンコーダー・デコーダー(T5、元のトランスフォーマー)があります。
トランスフォーマーは今日、言語だけでなく、視覚(ViT)、音声(Whisper)、タンパク質折り畳み(AlphaFold 2)、マルチモーダルモデルにも応用されています。パラメータ数と訓練データを倍増するたびに能力が向上し続けており、これが現在のフロンティアモデルを支える原則です。