古人讲,“以古为镜,可以知兴替”,读史可以明智,知古可以鉴今。神经网络的发展历程中也有“兴盛”和“衰废”。那么,神经网络出现高潮和低潮的原因是什么?可以带着这样的思考来探索其中的根本原因,进而找到自己科研的努力方向。
2015年,曼宁提到深度学习“海啸”:“在过去的几年中,深度学习的浪潮在计算语言学领域不断涌现,但在2015年,深度学习秉海啸之势涌入自然语言处理(natural language processing)的会议。”深度学习不仅在NLP领域,还在计算机视觉(computer vision)等其他人工智能领域占据着十分重要的地位。凭借着一代又一代科研工作者的努力和天才的创新型思想,神经网络发展至深度学习时代。神经网络的发展历史主要包括起源、兴盛、深度学习这三个阶段。
1.起源
20世纪50年代至20世纪80年代是传统机器学习方法的年代。在这个阶段,人工智能的研究工作从传统线性回归逐渐过渡到监督学习。传统线性回归是指直接求解合适的平面去拟合数据,监督学习则是利用训练集和测试集去“学习”一个平面来拟合数据。1943年,McCulloch-Pitts神经元模型(简称MP神经元模型)在论文《神经活动中所蕴含的思想的逻辑活动》中被首次提出,它利用数学模型简化了生物学神经元,但并不具有“学习”的功能。该模型对后续研究有非常深远的影响,至今几乎所有的神经网络,包括深度学习模型,都仍然采用最基本的MP模型架构。MP神经元的出现标志着人工神经网络的诞生。
1949年,在《行为的组织》一书中,心理学家Hebb对神经元之间连接强度的变化规则进行了分析,并基于此提出了著名的Hebb学习规则:如果两个神经元在同一时刻被激发,则其之间的联系应该被强化。后人基于这一原理,对Hebb学习规则进行了补充,提出了扩展的Hebb学习规则:若神经元A和神经元B之间有连接,当神经元A被激发的同时,神经元B也被激发,则其之间的连接强度应该增强;但若神经元A被激发的时候,神经元B未被激发,则其之间的连接强度应当减弱。继Hebb学习规则之后,神经元的有监督Delta学习规则被提出,用以解决在输入/输出已知的情况下神经元权值的学习问题。Delta学习规则用于监督学习过程,通过对连接权值进行不断调整,使神经元的实际输出和期望的输出达到一致,从而使得学习过程收敛。
1958年,Rosenblatt等人成功研制出了代号为Mark I的感知机(percep-tron),这是历史上首个将神经网络的学习功能用于模式识别的装置,标志着神经网络进入了新的发展阶段。感知机引发了神经网络历史发展中的第一个高潮。感知机的主要思路是通过最小化误分类损失函数来优化分类超平面,从而对新的实例实现准确预测。假设输入特征向量是一个 n 维的特征向量,输出的类标空间是二维的,即只有两个类,标号分别为+1和-1。即输入特征向量为 x ∈ℝ n ,输出类标为 y ∈{+1,-1},则感知机模型为
y = f ( x )=Sgn( wx + b ),
其中的 f 函数的定义有多种,根据不同的定义,有不同的优化方法来优化分离超平面,从而对新的实例实现准确预测。通过已经存在的样本来最小化误分类的损失,求出可以用于分类的超平面后,即可使用新的实例来进行验证。
从感知机的提出到1969年之间,出现了神经网络研究的第一个高潮。此间,人们对神经网络甚至人工智能抱有巨大的信心。然而1969年,Minsky和Papert所著的《感知机》一书出版,他们从数学的角度证明了单层神经网络(即感知机)具有有限的功能,甚至无法解决最简单的“异或”逻辑问题。这给当时神经网络感知机方向的研究泼了一盆冷水,美国和苏联在此后很长一段时间内也未资助过神经网络方面的研究工作。此后很长一段时间内神经网络的研究处在低迷期,称作神经网络的寒冬(AI winter)。
到了20世纪80年代,关于神经网络的研究慢慢开始复苏。1982年,Hop-field等人提出一种名为Hopfield的神经网络,解决了非多项式复杂度的旅行商问题。Hopfield网络在一定程度上使神经网络的研究复苏。1983年,Sejnowski和Hinton首次提出“隐藏单元”的概念,并基于此设计出玻尔兹曼机(Boltz-mann Machine,BM)。玻尔兹曼机是一种由随机神经元全连接组成的反馈神经网络,包含一个可见层和一个隐藏层。网络中神经元的输出只有两种状态(未激活和激活,分别用二进制0和1表示),其取值根据概率统计规则决定。但玻尔兹曼机存在着训练和学习时间过长的问题,所以影响了它的实际应用。此外,难以准确计算玻尔兹曼机表示的分布,得到服从玻尔兹曼机所表示分布的随机样本也很困难。基于以上原因,人们对玻尔兹曼机进行了改进,提出了限制玻尔兹曼机(Restricted Boltzmann Machine,RBM)。相比于玻尔兹曼机,RBM的网络结构中层内神经元之间没有连接,尽管RBM所表示的分布仍然无法有效计算,但可以通过Gibbs采样得到服从RBM所表示分布的随机样本。2006年,Hinton提出了深度信念网络(Deep Belief Network,DBN),以RBM为基本组成单元,这是人类历史上第一个深度学习网络,同时也是目前深度学习的主要框架之一。这一阶段的神经网络已经从起初的单层结构扩展到了双层,隐藏层的出现使得网络具有更强的数据表示能力。
1974年,Werbos在他的博士论文里提出了用于神经网络学习的反向传播(Back Propagation,BP)算法,为多层神经网络的学习训练与实现提供了一种切实可行的解决途径。1986年以Rumelhart和McClelland为首的科学家小组在 N ature 上发表论文,对多层网络的基于误差的反向传播算法进行了详尽的分析,进一步推动了BP算法的发展。
1989年,Cybenko、Funahashi、Hornik等人相继对BP神经网络的非线性函数逼近性能进行了分析,并证明了对于具有单隐藏层、传递函数为Sigmoid的连续型前馈神经网络可以以任意精度逼近任何复杂的连续映射。为模拟生物神经元的局部响应特性,Broomhead和Lowe于1988年将径向基函数引入神经网络的设计中,形成了径向基函数(Radial Basis Function,RBF)神经网络。后来,Jackson和Park分别于1989年和1991年对RBF在非线性连续函数上的一致逼近性能进行了论证。Hopfield网络、玻尔兹曼机和BP算法的发展,引发了神经网络研究的第二次热潮。特别是BP算法的发展,将热潮推到了一个新的高度。
2.兴盛
1989年在“Multilayer Feedforward Networks Are Universal Approxima-tors”一文中,作者给出了数学证明,证明多层结构可以使神经网络在理论上拟合任意函数,包括异或(XOR)等。同年,Yann LeCun和贝尔实验室的其他研究者将理论用于实际问题,通过利用多层神经网络和BP算法,成功地识别手写邮政编码,并发表了“Back Propagation Applied to Handwritten Zip Code Recognition”一文,为现代神经网络学习打下了基础。在Yann LeCun的论文中,除了反向传播的应用外,还提出了对神经网络的改进:卷积(convolution)。卷积通过“权值共享”大大加速了神经网络的学习过程。因此,Yann LeCun也被称为卷积神经网络(Convolutional Neural Network,CNN)之父。而“权值共享”的概念早在1986年就被Rumelhart、Hinton和Williams等人详细论证过。此外,在1980年的“Neurocognitron”一文中,Kunihiko等人也提到了类似的概念,称之为自编码器(autoencoder),其结构如图1.2所示。自编码器是一种无监督的特征学习网络,它利用反向传播算法,让目标输出值等于输入值。对于一个输入
x
∈ℝ
n
,首先将其通过特征映射得到对应的隐藏层表示
h
∈ℝ
m
,隐藏层表示接着被投影到输出层
∈ℝ
n
,并且希望输出与原始输入尽可能相等。自编码器试图学习一个恒等函数,当隐藏层的数目小于输入层的数目时可以实现对信号的压缩表示,获得对输入数据有意义的特征表示。通常隐藏层权值矩阵和输出层权值矩阵互为转置,这样大大减少了网络的参数个数。
图1.2 自编码器网络结构
为了解决出现在自然语言以及音频处理中的长序列输入问题,循环神经网络(Recurrent Neural Network,RNN)应运而生,RNN通过将输出再一次输入当前神经元来赋予神经网络“记忆”能力,使得神经网络可以处理和记忆序列数据。自80年代BP算法被提出来以后,CNN、自编码器和RNN相继得到发展,这为深度学习时代的到来奠定了基础。
3.深度学习
2000年以来,由于GPU等硬件所提供的算力提升,以及大数据时代的加持,许多神经网络都在往“更深”的方向发展。深度学习作为机器学习的一个分支,在计算机视觉、自然语言处理等方向大放异彩。深度学习的思想在过去很长一段时间之前已经产生,但当时没有取得成功的原因主要有两点:第一,没有足够的训练数据;第二,缺乏高性能的并行计算能力。
ImageNet数据集的产生是深度学习时代具有标志性的事件之一。2009年,华人学者李飞飞和她的团队在CVPR2009上发表了一篇名为“ImageNet: A Large-Scale Hierarchical Image Database”的论文,并且附带了数据集。Ima-geNet数据集被广泛应用于深度学习图像领域,关于图像分类、定位、检测等研究工作大多基于此数据集展开。此外,ImageNet数据集也被用作竞赛的标准数据集。2012年,Hinton和他的学生Alex Krizhevsky在参加ImageNet竞赛时,把卷积神经网络深度化,设计出AlexNet网络,获得了当年的竞赛冠军。AlexNet的成功引发了人们对深度卷积神经网络的极大兴趣,随之而来的是更多、更深入的神经网络的相继提出。
前文所述的神经网络可以归为判别式网络模型,即对输入数据进行分类或判别,学习如何区分不同类别并建立有效的决策边界;而最近十年以来,一类全新的模型——生成式网络诞生了,生成式网络致力于学习数据的分布,以便能够生成新的、与训练数据相似的样本。生成式模型的发展经历了多个关键阶段,其中三个主要的代表性模型是生成对抗网络(GAN)、变分自编码器(VAE)和transformer。生成对抗网络最早由Ian Goodfellow等人于2014年提出,通过对抗训练的方式让生成器和判别器相互竞争,逐渐提高生成器生成逼真样本的能力。GAN在图像生成、风格转换等领域取得了巨大成功,为生成式模型的研究奠定了基础。变分自编码器作为另一种生成模型,由Kingma和Welling于2013年提出。VAE以概率图模型为基础,通过一个编码器网络将输入数据映射到潜在空间,并在这个潜在空间中进行采样,从而生成新样本。
随着深度学习技术的不断发展,生成式模型逐渐迈向更大规模、更复杂的模型。Transformer模型的提出推动了大模型的发展,而GPT(生成式预训练)系列则成为其中的杰出代表,包括GPT-3.5和GPT-4。这些模型通过大规模的预训练学到通用的语言表示,进而在多个领域展现出强大的生成和表达能力。
4.神经网络发展的历史:总结
在此总体回顾整个神经网络发展的历史:20世纪40年代是神经网络研究的萌芽期,这一时期出现了MP网络、Hebb学习等重要概念;20世纪五六十年代,神经网络第一个黄金时代到来,学者提出了感知机、ADALINE等,并第一次成功应用于商业;20世纪70年代是神经网络发展的安静年代,也称为“寒冬时代”,但仍有学者坚持研究神经网络,这一时期出现了联想记忆模型、自组织映射网等重要研究;20世纪80年代,神经网络的研究开始复苏,出现了BP算法、Hopfield网络、玻尔兹曼机等具有影响力的研究;当下正处于深度神经网络时代。图1.3分别标注了神经网络发展历史上的一些大事件。不难发现,重大的神经网络发现通常可以带起一个辉煌的人工智能时代,使得更多人参与到人工智能的研究当中。而神经网络局限性的发现,也会迅速让人工智能领域的热度退却。从长远来看,人工智能的发展离不开对人类智能的模拟,神经网络则是当下对人类智能最优的模拟之一。因此,尽管有高峰和低谷,作为研究者应该明白的是,对于神经网络的研究,道阻且长,需要所有研究者共同贡献自己的聪明才智。
图1.3 神经网络发展历史
神经网络的发展离不开一些重要的人物及其团队做出的关键性研究,本节会着重介绍这些“风云人物”。
1.深度学习“三巨头”
Geoffrey Hinton
Hinton被称为“深度学习鼻祖”,甚至是“神经网络之父”。他是神经网络领域一位重要的科学家。从BP算法到玻尔兹曼机,从深度信念网络到2012年提出的AlexNet,神经网络发展历史上的一些重要的进展都和他有非常密切的关系。
Yann LeCun
自称杨立昆,是卷积网络模型的发明者,也被称为“卷积网络之父”。卷积神经网络被广泛地应用于计算机视觉和语音识别应用中。
Yoshua Bengio
Bengio是蒙特利尔大学的终身教授,蒙特利尔学习算法研究所(MILA)的负责人。他的主要贡献在于对循环神经网络工作的一系列推动。他的“A Neural Probabilistic Language Model”一文开创了神经网络语言模型的先河。
2.人工智能领域的重要科学家
吴恩达
吴恩达(Andrew Ng)是华裔美国人,全球公认的人工智能领域的领导者。他是DeepLearning.AI的创始人,Landing AI的创始人兼CEO,AI Fund的合伙人,也是在线教育平台Coursera的联合创始人。他在Coursera上教授的“机器学习”和“深度学习”一度成为人工智能领域的热门课程。
Ian Goodfellow
人工智能的三驾马车分别是卷积神经网络、循环神经网络和生成对抗网络。Ian Goodfellow就是生成对抗网络的发明人。他也是 Deep Learning 一书的主要作者。2017年,他被《麻省理工学院技术评论》评为35位35岁以下的创新者之一。
何恺明
何恺明与他的同事开发了深度残差网络(ResNet),这是目前计算机视觉领域的流行架构之一。ResNet也被用于机器翻译、语音合成、语音识别和AlphaGo的研发上。2009年,何恺明成为首获计算机视觉领域三大国际会议之一CVPR“最佳论文奖”的中国学者。
3.人工智能实验室
谷歌:DeepMind人工智能实验室
DeepMind位于英国伦敦,是由人工智能程序员兼神经科学家戴密斯·哈萨比斯等人联合创立的,是前沿的人工智能企业。它将机器学习和系统神经科学的最先进技术结合起来,建立强大的通用学习算法。谷歌于2014年收购了该公司。
谷歌:Google Brain团队
Google Brain是谷歌的人工智能研究小组,由Jeff Dean、Greg Corrado和Andrew Ng共同成立。一些泰斗级人物如Geoffrey Hinton、Martín Abadi和Michael Burrows等供职于该团队。2023年4月,DeepMind和Google Brain合并,成立Google DeepMind。
Facebook
:FAIR
Yann LeCun创立了Facebook人工智能研究院(FAIR),旨在通过开放研究推进人工智能的发展,并惠及所有人。FAIR的目标是理解智能的本质,以创造真正的智能机器人。人工智能已经成为Facebook的核心,因此FAIR现在是更大的Meta AI组织的组成部分。
MIT:CSAIL
MIT的CSAIL最初由两个实验室组成:计算机实验室和人工智能实验室,分别于1963年和1959年成立。这两个实验室于2003年正式合并成为CSAIL,它是MIT最大的实验室之一,也是全球最重要的信息技术研究与开发中心之一。
UC Berkeley:BAIR
加州大学伯克利分校人工智能研究室的主要研究领域涵盖计算机视觉、机器学习、自然语言处理、规划和机器人等。其中的机器人和智能机器实验室致力于用机器人复制动物的行为。其自动化科学和工程实验室从事更广泛的机器人功能的研究。
蒙特利尔大学:MILA
加拿大蒙特利尔现在被媒体称作人工智能的“新硅谷”。由蒙特利尔大学的计算机教授Yoshua Bengio带领,MILA在深度学习和深度神经网络等领域都有开创性研究,并应用到视觉、语音和语言等领域。
OpenAI:开放人工智能研究中心
OpenAI是一家位于美国旧金山的人工智能研究公司,由营利性公司Ope-nAI LP及非营利性母公司OpenAI Inc组成。2022年OpenAI的全新聊天机器人模型ChatGPT问世,给AIGC(Artificial Intelligence Generated Content,人工智能生成内容)领域带来了更多希望,也掀起了全世界对LLM(Large Lan-guage Model,大语言模型)的研究热潮。自2019年起,微软与OpenAI建立了合作伙伴关系,截至2023年微软是OpenAI最大的投资者,拥有49%的股份。
了解世界前沿的研究团队和研究人员,不仅能让我们惊叹于他们的成就,更重要的是可以从他们的科研成果中吸取灵感,并指导自己的研究方向。当研究者对自己的研究方向感到迷茫时,可以参考世界一流团队的研究方向(尽管这并非绝对准确)。
神经网络的研究者与其他领域的研究者一样,也通过论文来互相交流。神经网络以及机器学习等领域,有一些流传度很高、专业性比较强的期刊和会议,读者可以根据自己的研究兴趣阅读相应的文献。
神经网络是机器学习的一个分支,因此许多神经网络的研究都发表在机器学习相关的期刊和会议中。比如 IEEE Transactions on Pattern Analysis and Machine Intel ligence ( T P AM I )是机器学习的顶级期刊之一,有关神经网络的很多重要研究都可以在上面找到。神经网络领域最好的期刊之一是 IEEE Transactions on Neural Networks and Learning Systems ( T N N LS ),除此之外,最早创刊的 Neural Networks ,以及 Neural Computation 和 Neurocom-puting 等同样是神经网络的热门期刊。从中国计算机学会推荐刊物的角度来看,神经网络相关的期刊都是B类或者C类,即神经网络领域没有一本属于自己的A类期刊。因此,大家在搜寻资料时,可以查阅专业相关性更高的期刊,并非一定要瞄准A类期刊。
会议方面,有专属神经网络领域的会议Neural Information Processing Sys-tem(NeurIPS)。此外,International Conference on Machine Learning(ICML)、Conference on Computational Learning Theory(COLT)、Conference on Com-puter Vision and Pattern Recognition(CVPR)、International Joint Confer-ences on Artificial Intelligence(IJCAI)以及Association for the Advancement of Artificial Intelligence(AAAI)等会议都包含关于神经网络的研究。