购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 引言

1943年,心理学家W. McCulloch和数理逻辑学家W. Pitts提出了世界上第一个人工神经元模型,即MP模型,开启了人类利用数学模型用外部输入输出表达式模拟人脑部分功能的历史进程。1949年,D. O. Hebb研究了突触可塑性的基本原理,提出了一种调整人工神经元连接权的规则,通常称为Hebb学习规则。其基本思想是,当两个神经元同时兴奋或同时抑制时,它们之间的连接强度就会增加,反之则会降低。这一规则已成为无监督学习与记忆痕迹构建的重要基础。1957年,F. Rosenblatt等提出了一种被称为“感知机”(perceptron)的特殊类型的人工神经网络,并将之视为生物系统感知外部刺激的简化模型。该模型主要用于模式分类,并一度引起人们的广泛兴趣。由于该项工作的开创性,F. Rosenblatt也被称为“神经网络之父”。但早期的单层与多层感知机均采用二值型的MP模型。1962年,Widrow提出了自适应线性元件(adaline),得到了连续取值的线性网络。之后人工神经网络的研究进入第一次热潮。1969年,M. Minsky和S. Papert发表了名为《感知机》的专著。指出了简单的线性感知机的功能是有限的,即它无法解决线性不可分的二类样本的分类问题。要解决这个问题,必须加入隐层节点。但是对于具有隐层节点的多层网络,如何设计或找到有效的学习算法,在当时是一个难以解决的问题。由于Minsky在人工智能领域的权威性,这一结论使得神经网络的研究在整个20世纪70年代,总体处于低潮。

进入20世纪80年代后,美国物理学家J. J. Hopfield于1982年和1984年各发表了两篇神经网络论文,引起学界很大的反响。他提出了一种同层全部神经元相互反馈互联的神经网络,并定义了一个能量函数,即表达为神经元状态与连接权的能量函数。利用该网络可以求解相联记忆(associative memory)和优化计算的问题。该网络后来被称为Hopfield网络。最典型的范例是应用该网络成功地求解了旅行商问题(TSP)。在此之后,1986年D. E. Rumelhart和G. E. Hinton等提出了多层前馈感知机的误差反向传播算法(error back-propagation algorithm),简称BP算法。该算法解决了原来不能提供的多层感知机的学习算法问题,至今仍是包括深度卷积神经网络和Transformer在内的绝大多数神经网络模型常用的标准学习算法。Hopfield网络和BP算法的提出使人们重新看到了人工神经网络的发展前景。1987年在美国召开了第一届国际神经网络联合大会(IJCNN),人工神经网络研究进入第二次热潮。J. J. Hopfield和G. E. Hinton也主要因为上述基础性发现与发明等荣获2024年诺贝尔物理学奖。

Hopfield网络与BP算法的学术成功,在当时并没有真正解决多少实际问题,也没有带来多大的产业价值,这导致人工神经网络的研究在2000年前后再次进入低潮。直到2006年,G. Hinton等率先提出了包括深度置信神经网络在内的深度学习方法。2012年,Hinton等提出了一种在神经网络模型中防止过拟合的正则化方法Dropout。同年,Hinton与其博士生将Y. LeCun等提出的卷积神经网络,与大数据、GPU进行了有效的结合,提出了AlexNet模型(Krizhevsky, Sutskever, Hinton, 2012),面向ImageNet数据集表现出惊人的图像分类能力,并由此带来了神经网络的第三次研究热潮,也开创了以深度学习为代表的新一轮人工智能研究与产业发展的新局面。借助于深度卷积神经网络对分层特征的自动提取能力,图像分类或识别方法得到迅猛的发展,先后出现了各种改进型的深度卷积神经网络结构与防止过拟合的正则化策略,例如,NIN模型(Lin等,2014),VGG模型(Simonyan等,2014),GoogLeNet模型(Szegedy等,2014),Inception模型(Szegedy等,2015),批次归一化(batch normalization, BN)策略(Ioffe等,2015),ResNet模型(He等,2015),空洞卷积模型(Yu等,2015),DenseNet模型(Huang等,2016),FPN模型(Lin等,2017),ResNext模型(Xie等,2017)和ResNeSt模型(Zhang等,2020)等。这些模型针对各种公开数据集的分类性能不断提升,甚至达到或超过人类水平。但开放环境下的应用,却落地艰难。这次深度神经网络热潮带来的另一重要进展,主要体现在对图像、视频与三维点云目标检测与分割的研究方面,同样涌现出了许多检测与分割精度不断增强的研究成果,包括R-CNN(Girshick等,2014),Fast R-CNN(Girshick, 2015),Faster R-CNN(Ren等,2015),U-Net(Ronneberger等,2015),YOLO(Redmon等,2016),SSD(Liu等,2016),R-FCN(Dai等,2016),MS-CNN(Cai等,2016),RetinaNet(Lin等,2017),YOLOv3(Redmon等,2017),Mask R-CNN(He等,2017),PointNet(Qi等,2017),Complex-YOLO(Simon等,2018),全景分割(Kirillov等,2018),YOLOv4(Bochkovskiy等,2020),EfficientDet(Tan等,2020)和YOLOv5(Jocher, 2020)等。

在AlexNet于2012年开始的新一轮人工智能研究中,第一波次的核心突破就是深度卷积神经网络,而第二波次的重大进展则是2016年由谷歌DeepMind推出的AlphaGo。超人类水平的AlphaGo、AlphaGo Zero、AlphaZero与MuZero将强化学习与深度卷积神经网络、蒙特卡洛树搜索算法进行结合,最终获得了从零开始、可完全自主学习且无师自通的棋类与游戏类通用人工智能,引起学界与社会的强烈关注。

从ChatGPT的问世与大模型的研究进展来看,2017年由谷歌提出的新一代神经网络模型Transformer(Vaswani等,2017),在许多自然语言处理(NLP)与计算机视觉(CV)任务中都获得了最好的结果。目前,Transformer模型最主要的突破性成就就是推出了强大的GPT-3(Brown等,2020)、ChatGPT(OpenAI, 2022)与GPT-4(OpenAI, 2023)。考虑到Transformer模型规模与泛化性能之间呈现出的单调递增趋势,特别是其跨模态的通用性,以及结构上通过自注意力学习机制的实现,可表达与生成token序列的全局相关性等重要特征,Transformer模型的出现可视为新一轮人工智能中第三波次的里程碑式突破。 Zdz2cx2w0npfU9RZYqyifS5IfcTFtOY0EgnUR5T0pJJHTmi/UscGHyfvhw3jXlql

点击中间区域
呼出菜单
上一章
目录
下一章
×