生成式预训练 Transformer (GPT)

生成式预训练 Transformer（GPT） 是一类大型语言模型，使用仅解码器（decoder-only）的 Transformer 架构，并通过两个阶段进行训练。首先，模型在海量互联网文本语料上以一个简单目标进行 预训练——预测下一个 token。随后，通过微调、监督式示范和基于人类反馈的强化学习，使其适应于遵循指令。

OpenAI 于 2018 年推出原始 GPT，并通过 GPT-2（2019）、GPT-3（2020）、GPT-3.5（2022 年底驱动了首个 ChatGPT）以及 GPT-4 / GPT-4o / GPT-5 系列不断扩展规模。每一步都增加了参数量、数据量和上下文长度，同时方法上提升了推理、多模态和工具调用能力。

GPT 的范式已成为业界主导模式。Claude、Gemini、Llama、Mistral、DeepSeek 和 Qwen 都是采用非常相似训练目标的仅解码器 Transformer，尽管权重与工程方案各不相同。