大型语言模型 (LLM)

**大型语言模型（LLM，Large Language Model）**是一种深度神经网络——几乎都基于 Transformer 架构——通过书籍、文章、网页和代码中数千亿乃至数万亿词语训练而成。训练完成后，模型对人类语言的统计规律进行编码，能够根据输入生成连贯文本、回答问题、摘要文档、翻译语言和编写代码。

LLM 并不具备人类意义上的「理解」能力。它们根据前文语境预测最可能的下一个词元（Token），并重复数千次以组成句子和段落。这种看似在「思考」的幻觉，源于训练过程中吸收的海量且多样的模式。

该术语随 2022 年 ChatGPT 的发布进入大众视野。如今，「LLM」泛指拥有数十亿乃至逾万亿参数的模型，可通过 API（GPT-5、Claude、Gemini）、开放权重（Llama、Mistral、DeepSeek）或本地运行时（Ollama、llama.cpp）访问。

LLM 是本站报道的几乎所有 AI 产品的底层基础——智能体、对话助手、RAG 系统和推理模型，均构建于 LLM 之上。

来源

另见