基础

神经网络

由多层人工神经元构成、受人脑结构启发的计算模型,通过反向传播在数据上训练以学习复杂模式;是几乎所有现代机器学习(包括大型语言模型 LLM)的核心基础。

神经网络是一种受大脑启发的计算模型。它由多层简单的单元——人工神经元——组成,这些神经元接收加权输入,应用非线性激活函数,并将结果传递给下一层。通过在带标签或自监督数据上训练时调整权重,网络学会将输入(像素、音频、文本 token)映射到输出(类别、预测、embedding)。

一个典型的网络包含输入层、一个或多个隐藏层和输出层。当隐藏部分很深——从几十到几百层——这一领域就称为深度学习。训练依赖 反向传播(backpropagation):输出端的误差通过网络求导,用于通过随机梯度下降将每个权重朝正确方向移动。

现代神经网络形态多样:用于图像的卷积网络,用于时间序列的循环网络,用于关系数据的图网络,最重要的则是 Transformer——今天大型语言模型的核心。同一个基本理念——将简单的可微分单元堆叠成可学习的管道——驱动着视觉、语音、机器人、药物发现和代码生成等系统。

来源

另见