基础
Transformer
2017 年提出的深度学习架构,凭借自注意力(Self-Attention)机制取代了循环神经网络,如今驱动着几乎所有现代大型语言模型,从 GPT 到 Claude 无一例外。
Transformer 是深度学习架构,由 Vaswani 等人(Google,2017 年)在论文 Attention Is All You Need 中提出。它取代了早期用于语言任务的循环神经网络(RNN、LSTM),成为几乎所有顶级大型语言模型的骨干——GPT、Claude、Gemini、Llama、Mistral、DeepSeek 均为 Transformer 架构。
Transformer 的核心创新是自注意力(Self-Attention)机制,使序列中每个位置都能并行地「关注」其他所有位置。这消除了 RNN 的顺序处理瓶颈,支持在更长上下文上进行训练,并能在现代 GPU 和 TPU 上高效扩展。
一个 Transformer 层由以下部分组成:多头自注意力(从不同角度捕捉数据中的关系)、前馈网络、层归一化和残差连接。模型通常堆叠 24 至 100 多层这样的结构。主要变体包括:仅编码器(BERT)、仅解码器(GPT 系列)以及编码器-解码器(T5、原始 Transformer)。
Transformer 如今已超越语言领域,驱动着计算机视觉(ViT)、音频(Whisper)、蛋白质折叠(AlphaFold 2)和多模态模型。该架构的扩展性极强:参数和训练数据的翻倍持续带来能力提升——这正是当今前沿模型背后的核心原则。