面对不同的数据和应用领域,深度学习在基础网络结构之上演变出了各种专用模型,它们的主要差异体现在网络结构。其中主流的模型包括三类:卷积神经网络、循环神经网络和注意力神经网络。这三类模型各有特点,分别完成不同的任务。就好像有的人观察力强,可以当侦探;有的人表达力强,适合当老师;有的人战略眼光长远,适合当领导。本书将在后文以及《破解深度学习(核心篇):模型算法与实现》中详细介绍这三大类深度模型及其各种典型变体。
卷积神经网络(convolution neural network,CNN)是人脸识别、自动驾驶汽车等大多数计算机视觉应用的支柱。它就像个侦探,拿着放大镜对图像进行逐行扫描。2012年,多伦多大学研究人员在著名的ImageNet挑战赛中使用基于CNN的模型(AlexNet),以16.4%的错误率获胜,受到学术界和业界的关注,由此引发了人工智能(AI)新的热潮。典型CNN结构示意及其发展时间线如图1-4所示。
第7章将从全连接层的局限开始讲起,详细介绍图像卷积、卷积层、池化层等网络结构技术细节和代码实现,使读者对CNN有全面深入的了解。在《破解深度学习(核心篇):模型算法与实现》中,我们会沿着时间线,详细介绍从20世纪末到现在主流的CNN变体,包括AlexNet、VGG、GoogLeNet、ResNet、DenseNet等模型。
图1-4 典型CNN结构示意及其发展时间线
如同CNN专门用于处理图像这种二维数据信息,循环神经网络(recurrent neural network,RNN)是用于处理序列信息(比如股票价格、声音序列、文字序列等)的一种特殊结构的神经网络。它包含了记忆单元,能够根据历史信息推断当前信息。关于如何训练序列神经网络以及如何解决长期依赖问题,在第8章将提供详细解答。
除了经典的RNN,我们将在《破解深度学习(核心篇):模型算法与实现》介绍深度RNN、双向RNN、门控循环单元(GRU)、长短期记忆网络(LSTM)、编解码器网络等更加复杂的序列数据处理模型。典型RNN结构示意及其主要复杂序列模型如图1-5所示。
图1-5 典型RNN结构示意及其主要复杂序列模型
2014年,注意力机制(attention mechanism,AM)首次应用于时间序列数据分析,引发了人们对其在序列处理上应用的广泛兴趣。
2017年,“Attention Is All You Need”这篇具有里程碑意义的论文发布,标志着自注意力机制的兴起,伴随而来的是Transformer模型的诞生。该模型迅速在深度学习领域确立了其领先地位,并激励了一系列后续模型的开发。
2022年年末,基于注意力机制的Transformer网络衍生出广受欢迎的ChatGPT。在第9章中,我们将深入探讨注意力机制的原理、自注意力机制、多头注意力等核心概念,并指导读者构建自己的Transformer网络。
在《破解深度学习(核心篇):模型算法与实现》中,我们将介绍更多新的研究成果,包括BERT、GPT等系列模型以及它们在自然语言处理(NLP)和计算机视觉等领域的变体。在学完这些内容之后,你将会对预训练大模型的奥秘有进一步的认识。注意力机制示意及其发展时间线如图1-6所示。
图1-6 注意力机制示意及其发展时间线
从CNN到RNN,再到Attention,都是深度学习核心的网络结构和入门必备的基础。接下来,我们将介绍深度学习的进阶内容“深度生成模型”。如果说前面三大类基础模型是组件,深度生成模型就是它们的组合体,代表着人工智能领域的前沿发展方向,并在图像、音频、文本等生成式人工智能(AIGC)领域得到了广泛应用。
在《破解深度学习(核心篇):模型算法与实现》中,从蒙特卡洛方法和变分推断,到变分自编码器(VAE)、卷积生成网络、生成对抗网络(GAN),再到最新的扩散模型,我们会逐一讲解,实现全覆盖式的介绍。GAN和VAE的结构示意如图1-7所示。
图1-7 GAN和VAE的结构示意
在本节中,我们探讨了深度学习中的几种核心网络结构,例如卷积神经网络、循环神经网络和注意力机制。每种网络结构都有其特定的应用场景和优势。CNN在图像处理领域表现出色;RNN擅长处理序列数据;注意力机制,尤其是Transformer模型,引领了深度学习的新方向。最后,深度生成模型将上述基础模型的功能组合起来,推动了AI内容生成的新浪潮。