深度学习

深度学习是机器学习的一个分支，构建带有多层堆叠表示的神经网络。每一层将其输入转换为略微更抽象的特征空间，这些变换的组合使模型能够捕捉传统算法难以企及的模式——从视觉中的边缘到形状再到物体，从语言中的字符到词语再到语义。

现代时代大约始于 2012 年，当时一个深度卷积网络（AlexNet）在 ImageNet 图像分类基准上取得突破。该配方——大型带标注数据集、GPU 算力以及通过反向传播的端到端训练——迅速扩展到语音识别、机器翻译、游戏，最终扩展到生成模型。Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton 因奠基性工作于 2018 年获得图灵奖。

深度学习是我们所报道的几乎一切的基础。从中演化出的 Transformer 架构和大型语言模型是拥有数十亿到数万亿参数的深度学习系统。图像生成器、语音模型、蛋白质结构预测器以及自动驾驶汽车的感知栈都共享同一原则：堆叠可微分的层，使用梯度下降训练，让规模来完成大部分工作。

来源

另见