基础
大型语言模型 (LLM)
在海量文本语料上训练的深度神经网络,能够预测和生成人类语言;是 ChatGPT、Claude、Gemini 等现代 AI 助手的技术基础,几乎驱动着当今所有主流 AI 产品。
**大型语言模型(LLM,Large Language Model)**是一种深度神经网络——几乎都基于 Transformer 架构——通过书籍、文章、网页和代码中数千亿乃至数万亿词语训练而成。训练完成后,模型对人类语言的统计规律进行编码,能够根据输入生成连贯文本、回答问题、摘要文档、翻译语言和编写代码。
LLM 并不具备人类意义上的「理解」能力。它们根据前文语境预测最可能的下一个词元(Token),并重复数千次以组成句子和段落。这种看似在「思考」的幻觉,源于训练过程中吸收的海量且多样的模式。
该术语随 2022 年 ChatGPT 的发布进入大众视野。如今,「LLM」泛指拥有数十亿乃至逾万亿参数的模型,可通过 API(GPT-5、Claude、Gemini)、开放权重(Llama、Mistral、DeepSeek)或本地运行时(Ollama、llama.cpp)访问。
LLM 是本站报道的几乎所有 AI 产品的底层基础——智能体、对话助手、RAG 系统和推理模型,均构建于 LLM 之上。