神经网络

神经网络是一种受大脑启发的计算模型。它由多层简单的单元——人工神经元——组成，这些神经元接收加权输入，应用非线性激活函数，并将结果传递给下一层。通过在带标签或自监督数据上训练时调整权重，网络学会将输入（像素、音频、文本 token）映射到输出（类别、预测、embedding）。

一个典型的网络包含输入层、一个或多个隐藏层和输出层。当隐藏部分很深——从几十到几百层——这一领域就称为深度学习。训练依赖 反向传播（backpropagation）：输出端的误差通过网络求导，用于通过随机梯度下降将每个权重朝正确方向移动。

现代神经网络形态多样：用于图像的卷积网络，用于时间序列的循环网络，用于关系数据的图网络，最重要的则是 Transformer——今天大型语言模型的核心。同一个基本理念——将简单的可微分单元堆叠成可学习的管道——驱动着视觉、语音、机器人、药物发现和代码生成等系统。

来源