基础
注意力机制 (attention)
神经网络技术,让模型为输入序列中每个 token 相对于其他 token 的重要性分配权重;是现代 Transformer 架构的核心机制,催生了今日的 LLM。
注意力机制(attention) 是神经网络中的一种技术,让模型能够在生成输出时,针对输入序列中的每个位置,决定其他每个位置的重要程度。注意力机制不严格按顺序处理 token,而是为每对位置分配权重,并据此聚合信息。
现代 AI 中的主流变体是 self-attention(自注意力),其中 query、key 和 value 向量都从同一个序列派生。每个 token 计算与其他每个 token 的相似度,这些得分通过 softmax 转换为权重,输出则是 value 向量的加权和。多头注意力(multi-head attention)在多个学习到的子空间中并行执行相同的运算。
注意力机制于 2014 年由 Bahdanau 等人首次引入用于机器翻译,并于 2017 年通过 Attention Is All You Need 论文成为核心构建块——该论文定义了 Transformer 架构。摒弃循环结构、仅依赖纯注意力,使得 GPU 上的大规模并行化成为可能,也让今天的大型语言模型真正可行。
诸如 Flash Attention、滑动窗口注意力和分组查询注意力(grouped-query attention)等变体降低了显存与算力消耗,使上下文窗口从数千 token 增长到数百万 token。