破解深度学习（基础篇）：模型算法与实现最新章节_瞿炜著

1.2
主要核心模型

面对不同的数据和应用领域，深度学习在基础网络结构之上演变出了各种专用模型，它们的主要差异体现在网络结构。其中主流的模型包括三类：卷积神经网络、循环神经网络和注意力神经网络。这三类模型各有特点，分别完成不同的任务。就好像有的人观察力强，可以当侦探；有的人表达力强，适合当老师；有的人战略眼光长远，适合当领导。本书将在后文以及《破解深度学习（核心篇）：模型算法与实现》中详细介绍这三大类深度模型及其各种典型变体。

1.2.1　卷积神经网络

卷积神经网络（convolution neural network，CNN）是人脸识别、自动驾驶汽车等大多数计算机视觉应用的支柱。它就像个侦探，拿着放大镜对图像进行逐行扫描。2012年，多伦多大学研究人员在著名的ImageNet挑战赛中使用基于CNN的模型（AlexNet），以16.4%的错误率获胜，受到学术界和业界的关注，由此引发了人工智能（AI）新的热潮。典型CNN结构示意及其发展时间线如图1-4所示。

第7章将从全连接层的局限开始讲起，详细介绍图像卷积、卷积层、池化层等网络结构技术细节和代码实现，使读者对CNN有全面深入的了解。在《破解深度学习（核心篇）：模型算法与实现》中，我们会沿着时间线，详细介绍从20世纪末到现在主流的CNN变体，包括AlexNet、VGG、GoogLeNet、ResNet、DenseNet等模型。

图1-4　典型CNN结构示意及其发展时间线

1.2.2　循环神经网络

如同CNN专门用于处理图像这种二维数据信息，循环神经网络（recurrent neural network，RNN）是用于处理序列信息（比如股票价格、声音序列、文字序列等）的一种特殊结构的神经网络。它包含了记忆单元，能够根据历史信息推断当前信息。关于如何训练序列神经网络以及如何解决长期依赖问题，在第8章将提供详细解答。

除了经典的RNN，我们将在《破解深度学习（核心篇）：模型算法与实现》介绍深度RNN、双向RNN、门控循环单元（GRU）、长短期记忆网络（LSTM）、编解码器网络等更加复杂的序列数据处理模型。典型RNN结构示意及其主要复杂序列模型如图1-5所示。

图1-5　典型RNN结构示意及其主要复杂序列模型

1.2.3　注意力机制

2014年，注意力机制（attention mechanism，AM）首次应用于时间序列数据分析，引发了人们对其在序列处理上应用的广泛兴趣。

2017年，“Attention Is All You Need”这篇具有里程碑意义的论文发布，标志着自注意力机制的兴起，伴随而来的是Transformer模型的诞生。该模型迅速在深度学习领域确立了其领先地位，并激励了一系列后续模型的开发。

2022年年末，基于注意力机制的Transformer网络衍生出广受欢迎的ChatGPT。在第9章中，我们将深入探讨注意力机制的原理、自注意力机制、多头注意力等核心概念，并指导读者构建自己的Transformer网络。

在《破解深度学习（核心篇）：模型算法与实现》中，我们将介绍更多新的研究成果，包括BERT、GPT等系列模型以及它们在自然语言处理（NLP）和计算机视觉等领域的变体。在学完这些内容之后，你将会对预训练大模型的奥秘有进一步的认识。注意力机制示意及其发展时间线如图1-6所示。

图1-6　注意力机制示意及其发展时间线

1.2.4　深度生成模型

从CNN到RNN，再到Attention，都是深度学习核心的网络结构和入门必备的基础。接下来，我们将介绍深度学习的进阶内容“深度生成模型”。如果说前面三大类基础模型是组件，深度生成模型就是它们的组合体，代表着人工智能领域的前沿发展方向，并在图像、音频、文本等生成式人工智能（AIGC）领域得到了广泛应用。

在《破解深度学习（核心篇）：模型算法与实现》中，从蒙特卡洛方法和变分推断，到变分自编码器（VAE）、卷积生成网络、生成对抗网络（GAN），再到最新的扩散模型，我们会逐一讲解，实现全覆盖式的介绍。GAN和VAE的结构示意如图1-7所示。

图1-7　GAN和VAE的结构示意

1.2.5　小结

在本节中，我们探讨了深度学习中的几种核心网络结构，例如卷积神经网络、循环神经网络和注意力机制。每种网络结构都有其特定的应用场景和优势。CNN在图像处理领域表现出色；RNN擅长处理序列数据；注意力机制，尤其是Transformer模型，引领了深度学习的新方向。最后，深度生成模型将上述基础模型的功能组合起来，推动了AI内容生成的新浪潮。

1.2 主要核心模型

1.2.1 卷积神经网络

1.2.2 循环神经网络

1.2.3 注意力机制