神经网络的发展历程可以分成三个阶段(基本和整个人工智能发展所经历的三次热潮相对应)。
1943年,心理学家W.McCulloch和数理逻辑学家W.Pitts通过模拟人类神经元细胞结构,建立了M-P神经元模型(McCulloch-Pitts neuron model) [7] ,这是最早的人工神经网络数学模型。1957年,心理学家F.Rosenblatt提出了感知机模型(Perceptron) [11-12] ,这是一种基于M-P神经元模型的单层神经网络,可以解决输入数据线性可分的问题。自感知机模型提出后,神经网络成为研究热点,但到20世纪60年代末时神经网络研究开始进入停滞状态。1969年,M.Minsky和S.Papert研究指出当时的感知机无法解决非线性可分的问题 [37] ,使得神经网络研究一下子跌入谷底。
1986年,D.Rumelhart、G.Hinton和R.Williams在 Nature 杂志上提出通过反向传播(back-propagation)算法来训练神经网络 [14] 。反向传播算法通过不断调整网络连接的权值来最小化实际输出向量和预期输出向量间的差值,改变了以往感知机收敛过程中内部隐藏单元不能表示任务域特征的局限性,提高了神经网络的学习表达能力以及神经网络的训练速度。到今天,反向传播算法依然是神经网络训练的基本算法。1998年,Y.LeCun [38] 提出了用于手写数字识别的卷积神经网络LeNet,其定义的卷积神经网络的基本框架和基本组件(卷积、激活、池化、全连接)沿用至今,可谓是深度学习的序曲。
图2.8 深度学习工作原理 [36]
2006年,G.Hinton基于受限玻尔兹曼机构建了深度置信网络(Deep Belief Network,DBN),使用贪婪逐层预训练方法大幅提高了训练深层神经网络的效率 [39] 。同年,G.Hinton和R.Salakhutdinov在 Science 杂志上发表了一篇题为“Reducing the Dimensionality of Data with Neural Networks”的论文 [15] ,推动了深度学习的普及。随着计算机性能的提升以及数据规模的增加,2012年,A.Krizhevsky等人提出的深度学习网络AlexNet [16] 获得了ImageNet比赛的冠军,其Top-5错误率比第二名低10.9%,引起了业界的轰动。此后深度学习在学术界和工业界蓬勃发展,学术界提出了一系列更先进、更高准确度的深度学习算法,工业界则不断将最新的深度学习算法应用于实际生活的各种应用场景中。在2012年到2017年间,卷积神经网络和循环神经网络两大类深度神经网络发展迅速,人们根据具体任务特点设计了多种多样的专用卷积神经网络或循环神经网络。卷积神经网络主要被应用于图像处理领域,如VGG [40] 、GoogLeNet [41] 、ResNet [42] 等,对卷积神经网络的介绍详见3.1节。循环神经网络则被广泛应用于自然语言处理和语音识别等领域,如LSTM [43] 、GRU [44] 等,对循环神经网络的介绍详见3.2节。2017年后,以Transformer [45] 为基础的大模型不断发展,并向着可以处理多种任务、更加通用的方向发展,在多种不同任务上展现出更通用的智能,例如GPT-4 [46] 在自然语言处理、图像处理、编写代码等多种任务上展现出非常接近人类的水平。关于大模型的介绍详见3.3节。