模型
生成式预训练 Transformer (GPT)
一类仅解码器(decoder-only)Transformer 语言模型,在海量文本上预训练并经过指令微调;ChatGPT 及其同类产品背后的核心架构家族。
生成式预训练 Transformer(GPT) 是一类大型语言模型,使用仅解码器(decoder-only)的 Transformer 架构,并通过两个阶段进行训练。首先,模型在海量互联网文本语料上以一个简单目标进行 预训练——预测下一个 token。随后,通过微调、监督式示范和基于人类反馈的强化学习,使其适应于遵循指令。
OpenAI 于 2018 年推出原始 GPT,并通过 GPT-2(2019)、GPT-3(2020)、GPT-3.5(2022 年底驱动了首个 ChatGPT)以及 GPT-4 / GPT-4o / GPT-5 系列不断扩展规模。每一步都增加了参数量、数据量和上下文长度,同时方法上提升了推理、多模态和工具调用能力。
GPT 的范式已成为业界主导模式。Claude、Gemini、Llama、Mistral、DeepSeek 和 Qwen 都是采用非常相似训练目标的仅解码器 Transformer,尽管权重与工程方案各不相同。
在日常使用中,「GPT」有时狭义地指 OpenAI 的模型,有时又广义地指整个解码器 LLM 家族——这一术语被过度使用,但毫无疑问处于现代 AI 的核心位置。