注意力机制 (attention)

注意力机制（attention） 是神经网络中的一种技术，让模型能够在生成输出时，针对输入序列中的每个位置，决定其他每个位置的重要程度。注意力机制不严格按顺序处理 token，而是为每对位置分配权重，并据此聚合信息。

现代 AI 中的主流变体是 self-attention（自注意力），其中 query、key 和 value 向量都从同一个序列派生。每个 token 计算与其他每个 token 的相似度，这些得分通过 softmax 转换为权重，输出则是 value 向量的加权和。多头注意力（multi-head attention）在多个学习到的子空间中并行执行相同的运算。

注意力机制于 2014 年由 Bahdanau 等人首次引入用于机器翻译，并于 2017 年通过 Attention Is All You Need 论文成为核心构建块——该论文定义了 Transformer 架构。摒弃循环结构、仅依赖纯注意力，使得 GPU 上的大规模并行化成为可能，也让今天的大型语言模型真正可行。

诸如 Flash Attention、滑动窗口注意力和分组查询注意力（grouped-query attention）等变体降低了显存与算力消耗，使上下文窗口从数千 token 增长到数百万 token。

来源

另见