Transformer

Transformer 是深度学习架构，由 Vaswani 等人（Google，2017 年）在论文 Attention Is All You Need 中提出。它取代了早期用于语言任务的循环神经网络（RNN、LSTM），成为几乎所有顶级大型语言模型的骨干——GPT、Claude、Gemini、Llama、Mistral、DeepSeek 均为 Transformer 架构。

Transformer 的核心创新是自注意力（Self-Attention）机制，使序列中每个位置都能并行地「关注」其他所有位置。这消除了 RNN 的顺序处理瓶颈，支持在更长上下文上进行训练，并能在现代 GPU 和 TPU 上高效扩展。

一个 Transformer 层由以下部分组成：多头自注意力（从不同角度捕捉数据中的关系）、前馈网络、层归一化和残差连接。模型通常堆叠 24 至 100 多层这样的结构。主要变体包括：仅编码器（BERT）、仅解码器（GPT 系列）以及编码器-解码器（T5、原始 Transformer）。

Transformer 如今已超越语言领域，驱动着计算机视觉（ViT）、音频（Whisper）、蛋白质折叠（AlphaFold 2）和多模态模型。该架构的扩展性极强：参数和训练数据的翻倍持续带来能力提升——这正是当今前沿模型背后的核心原则。

来源

另见