从1956年标志性的达特茅斯会议开始,人工智能发展至今已有60多年。回顾这60多年来的历史进程,不难发现,起起落落是人工智能发展的主旋律,它每一次扬帆起航都满载着无数科研人员的辛勤付出,在社会各界的殷切期望中遭遇阻碍继而偃旗息鼓,而后又在一群不甘放弃的研究者的努力以及新理论和新技术的助推下重整旗鼓,再次奋勇前行。这几经浮沉的发展过程也同样是人工智能技术不断接受洗礼而变得更加茁壮的过程,如今,人工智能技术已在推荐系统、人脸识别、影像识别、自然语言处理、自动驾驶、金融分析以及生物医学等领域取得了突破性的发展,人类社会也逐渐步入人工智能时代。在可以预测的未来,人工智能技术必将继续乘风破浪,再次引领社会经济与生活的变革。也正因如此,我们只有更加深入了解人工智能的发展历程,才能对其未来的发展趋势有更准确的把握。
在谈及人工智能技术的发展前,我们必须了解人类对智能的理解以及认知神经科学的产生和发展。前者反映了人类对智能的思考,后者解密了人类大脑神经的思维机制。人类智能是以大脑为核心的,依赖于个体生命系统,具有极强的可塑性且能够处理复杂任务的思维意识。而思维意识的不断发展与进化则源于个体与环境的共同作用,个体的生存本能以及复杂多变的环境共同推动着人类思维意识的不断进化,从而形成独特的有别于其他生命体的智能脑神经系统。从古至今,人类对自身智能的思考和探究有着近乎偏执的追求,直到近代,神经科学的诞生,才使人类得以窥探其中的奥秘。神经科学指出,人类大脑中存在着专门负责学习与记忆的皮层组织,由此展开了对大脑神经与思维机制的研究,这就是认知神经科学的起源。认知神经科学主要探究认知活动中的脑机制,即人类大脑如何调用各层级的组织和器官去实现各种认知活动,当中的核心就是研究大脑皮层中神经元的活动以及神经元之间的联系。认知神经科学不仅能解释人类行为的产生,而且也为人工智能的发展提供了扎实的理论基础。
时间回溯至1949年,加拿大心理学家唐纳德·赫布(Donald Olding Hebb)在其发表的《行为的组织:一种神经心理学理论》 [14] 中对大脑中进行学习与记忆的神经活动机制进行了开创性的解释,提出了著名的“突触可塑性”机制。该机制描述了神经元之间的联系,同时指出激活的神经元是联系在一起的,不同的激活会让不同的神经元联系在一起。这表明大脑神经元的联结是可塑的,塑造的方法就是不断激活相应的神经元,而有规律的激活就是学习。上述就是总结神经元机制的赫布定理,该定理如今已被脑部磁共振成像技术所证实,而定理当中阐述的神经元活动也成为人工智能中以神经网络为代表的联结主义学派的重要理论基础。
联结主义学派与符号主义学派是人工智能领域的两大分支,分别对应着人类智能中的归纳总结和逻辑推理。其中人类的各种感知处理均是基于大脑皮层神经网络的学习方法,而对于数学公式、定理证明等是基于符号演算方法的,这两种不同的学习方法也深刻影响了人工智能领域的发展。早在达特茅斯会议确立人工智能这门新兴学科之前,联结主义学派与符号主义学派便已经登上了学术的舞台。1955年,在美国西部计算机联合大会中的学习机讨论会上,塞弗里奇和艾伦·纽厄尔就分别发表了一篇关于模式识别的文章以及探讨计算机下棋的文章,这两人分别代表两派观点,前者是模拟神经系统的,后者是模拟人类推理过程的,这两个学派的互相推动和发展也成了人工智能技术发展中重要的组成部分。
在1956年的达特茅斯会议上,“人工智能”概念被正式提出,此后便开始了其曲折盘旋的发展历程。得益于认知神经科学的发展,联结主义学派基于对人脑神经系统的初步认识将人工智能技术推上了第一个快速发展的浪潮。在达特茅斯会议后的1957年,美国实验心理学家弗兰克·罗森布拉特(Frank Rosenblatt)就在一台IBM-704计算机上模拟实现了一种人工神经网络模型,该模型被命名为感知机 [15] 。感知机是一种参数可变的单层神经网络,能够处理线性可分的模式识别问题,是人类首次实现赋予了机器可以自主学习知识并进行泛化能力的人工神经网络模型,也是如今卷积神经网络的雏形。尽管感知机在当时仅能处理一些简单的视觉任务,但是也已引发了社会各界极大的关注,其中就包括美国国防部。但很快,符号主义学派的相关研究人员就对其提出了质疑,明斯基和西蒙在两人合作的著作《感知机:计算几何学》 [16] 中证明了单层神经网络无法解决XOR(异或运算)这一基本逻辑问题,再加上计算机的算力低下,这也导致了以神经网络学科为代表的人工智能研究的式微,人工智能技术进入了第一个低潮期。以符号主义为代表的人工智能研究在此期间也得到相应的发展,早期的机器受限于算力和存储量,同时也缺少感知和获取外部知识的能力,所以机器智能也仅能在有限的空间中进行搜索,搜索的机制就是逻辑推理的过程。为此,很多研究者也在此基础上进行了人工智能技术的探索,如早期纽厄尔、西蒙以及王浩等人在机器定理证明上的工作 [17] ;到后来吴文俊创立的吴方法 [18] 成为机器定理证明中的巅峰之一;还有1965年约翰·罗宾森(John Alan Robinson)提出的归结原理 [19] ,即将一阶逻辑推理演变为机械的搜索算法。以上的这些工作使得推理成为符号主义学派在人工智能技术上的主要机制,同时也助推了20世纪80年代以日本第五代电子计算机为代表的人工智能技术的第二次发展浪潮。但是以推理机制为主的机器智能技术仅能应用逻辑程序去解决其他方法早就能够解决的问题,而不是解决其他手段无法解决的问题,同时该技术需要人类将先验知识以逻辑形式告知机器,因此机器无法自动获取外界知识,这也限制了其进一步发展,很快,以第五代电子计算机为代表的人工智能技术也逐渐衰落。
1974年,哈佛大学博士生保罗·韦博斯在其博士论文中证明了在神经网络后多加一层,同时利用“后向传播”的学习方法,可以很好解决单层感知机无法解决的XOR问题,尽管该论文发表时,整个神经网络学科研究正处于低谷期,但这也预示着神经网络之后的复兴。1982年,物理学家约翰·霍普菲尔德提出了一种新的神经网络模型,该模型可以解决一大类模式识别的问题,而后被称为霍普菲尔德网络,振奋了神经网络领域,也推动了神经网络学科的再一次发展。此外,1985年,大卫·阿克利(David Ackley)、杰弗里·辛顿(Geoffrey Hinton)以及特伦斯·谢诺夫斯基(Terrence J. Sejnowski)在共同发表的《玻尔兹曼机的一种学习方法》 [20] 中提出了多层神经网络的学习机制,为神经网络模型的训练提供了新的算法,而后杰弗里·辛顿和大卫·鲁梅尔哈特(David Rumelhart)在合作发表的《通过误差的传播学习内在表示》 [20] 中提出了反向传播算法,使神经网络能够根据目标函数的误差自适应调整神经元间连接的权重,实现了神经网络自学习的功能。此外,他们还在神经网络中引入隐藏层,使其能够解决相应的非线性问题。此后,神经网络模型被广泛地应用在实际问题当中。1989年杨立昆等人在其发表的《反向传播算法在手写邮政编码上的应用》 [21] 中应用美国邮政系统中的手写数字样本来训练神经网络,该网络在测试样本上达到了5%的错误率,接着他还运用卷积神经网络的技术来开发商业软件,该软件被应用于银行支票识别中。然而,用于训练神经网络的反向传播算法存在一个难题,就是误差从输出层逐渐反向传回输入层的传播过程中,每经过一层,其对应梯度衰减速度就会加快,这样会导致深层网络结构中出现学习速度变慢的问题,从而使网络停在局部最优处,上述现象就是梯度消失。同时,太长的训练时间也使得网络容易对样本过度拟合,将样本中特有的噪声当作有效特征。上述的问题也导致神经网络的研究重新落入低潮。
在20世纪80年代后,神经网络的光芒逐渐被互联网所代替。直到21世纪,新的算法不断被提出来改进神经网络,同时计算机算力空前增强,再加上互联网时代下的海量数据,使神经网络再一次引领人工智能迈向了智能时代。2006年,辛顿和他的学生发表了论文《深信度网络的一种快速算法》 [22] ,在论文中提出了应用受限玻尔兹曼机在输入数据上进行预训练,从而发现数据中有效的特征,在对神经网络中的权重进行有效的初始化后,大幅度提升了深度网络的性能。2011年,蒙特利尔大学的泽维尔·格罗特(Xavier Glorot)以及约书亚·本吉奥(Yoshua Bengio)等人在论文《深而稀疏的修正神经网络》 [23] 中使用了一种被称为修正线性单元的激活函数,有效解决了传统激活函数在反向传播过程中出现的“梯度消失问题”,使神经网络的层数在理论上可以不断扩大从而提高其非线性拟合能力。2012年,杰弗里·辛顿等人发表了题为《通过阻止特征检测器的共同作用来改进神经网络》 [24] 的论文,在论文中提出应用dropout算法来强迫网络使用不同的子结构以学习相应的特征,很好地避免了过度拟合的问题。然而,当网络结构越来越深时,网络的性能却无法相应地得到提升,此即网络的退化问题。2015年,何凯明等人在其发表的《用于图像识别的深度残差网络》 [25] 中首次提出了以残差连接结构来缓解深度网络中出现的退化问题,这一算法使我们能够训练更深的网络,也是深度学习领域的一个重大突破。所谓深度学习,就是在传统神经网络的基础上不断扩大网络的层数,当深度学习中难以收敛的问题被解决后,基于深度学习的人工智能技术也得到了突破性的发展,并被越来越多地应用在各个领域(如图像识别、语音识别以及艺术创造等领域)去解决复杂的问题。
深度学习与传统神经网络相比最突出的特点在于其层数被大大增加,这就导致了深度学习更加难收敛。但是,近年来计算机算力提升,尤其是图形处理单元(GPU)的迅猛发展,为深度学习相关研究提供了有力的硬件支撑。2009年,斯坦福大学的拉杰特·雷纳(Rajat Raina)和吴恩达(Andrew Ng)等人发表论文《用GPU大规模无监督深度学习》 [26] 时就指出,利用GPU时,网络的运行速度要比传统CPU(中央处理器)快70倍左右。2010年,丹·奇里桑(Dan Claudiu Ciresan)和其合作者在发表的论文中 [27] 就应用GPU来实现20世纪80年代提出的反向传播计算方法,实验结果表明GPU的计算速度要比传统CPU快40倍。此外,互联网的迅速发展以及智能设备的广泛普及也为深度学习提供了大量的数据保障。最后是网络结构的改进、优化算法的改进以及损失函数的优化等都在不断提高网络的性能,加快网络的收敛速度。
近年来,在图像识别领域,深度学习的人工智能技术已经具备和人类智能相当甚至更加精确的识别能力。2009年,普林斯顿大学的邓嘉等人在其发表的论文 [28] 中建立了第一个超大型的用于计算机视觉领域研究的图像数据库(Image Net)。此后,以ImageNet为基础的视觉识别挑战赛便逐渐成为各种模型算法性能比拼的重要比赛。2012年,杰弗里·辛顿和他的两位研究生将深度学习应用在ImageNet竞赛上,他们所提出的模型获得了2012年挑战赛的第一名,预测的前五类错误率仅15.3%。2015年,微软亚洲研究院团队提出的深度残差网络算法使用了多达152层的神经网络,前五类错误率仅3.57%,已超越了正常人5%左右的识别错误率。
在语音识别领域,深度学习同样取得了重大的突破。2012年,杰弗里·辛顿、邓力以及其他几位来自不同机构的研究者,在他们联合发表的论文《深度神经网络在语音识别的声学模型中的应用:四个研究小组的共同观点》 [29] 中应用由杰弗里·辛顿提出的受限玻尔兹曼机算法对神经网络进行预训练,并将深度神经网络应用在语音的文字识别中,在谷歌语音输入的基准测试中,单词错误率仅12.3%。2015年5月,谷歌公司提出了基于递归神经网络/长短期记忆(RNN/LSTM)的语音识别技术,使在谷歌语音上的单词错误率下降至8%。2016年,百度AI实验室的达里奥·阿莫代伊(Dario Amodei)发表的论文《英语和汉语的端对端语音识别》 [30] 中的语音识别模型应用LSTM来改进,提出了门控循环单元。该模型在WSJ Eval’92的基准测试上,单词错误率降至3.1%,已经超越正常人5%的识别错误率。
在娱乐对弈方面,谷歌旗下的深度思考(DeepMind)团队开发的深度Q-网络(DQN)已经在29种雅达利(Atari)像素游戏中达到甚至超越了人类职业选手的水平,同样该团队开发的阿尔法狗(Alpha Go)更是击败了人类围棋顶尖高手。在程序编写上,由DeepMind团队开发的神经编程解释器已经能够自己学习并编写简单的程序。
深度学习在越来越多的领域取得了优于人类的成绩,使得基于深度学习的人工智能技术不仅仅是作为当今经济社会生活的应用,而更应该成为一种生产力革新的技术。如此,人工智能技术的发展既可以促进人类社会的变革,又可以反过来推动其自身的智能化。如今,我们正在步入全面智能化的时代,基于深度学习的人工智能技术不仅仅在搜索推广、影像识别、生物特征识别、自然语言处理、娱乐对弈以及机器翻译等领域得到广泛应用,还在生物医学、自动驾驶、国防军工以及航空航天等领域取得了重大进展。基于深度学习的人工智能技术正在加快其产业化的进程,通过算法设计、多态数据整合、强算力支撑来训练出泛化性能强大的大模型来解决不同领域的问题,同时服务于各行各业。2021年,阿里巴巴集团旗下研发机构达摩院实现了国内第一个商业化的多态数据神经网络大模型,该模型将大数据转化为数据能源,在通用的结构上,可以使用不同的小数据来对模型进行微调以实现网络在不同行业中的应用。
如今,尽管人工智能技术已经取得了很大的突破,也得到了广泛且有效的应用,但是我们仍然要知道人工智能存在的很多问题。首先,智能体仍无法和人类进行有价值的交流,这里的交流并不是简单的对话问答,而是指两者之间相互学习、相互讨论以及相互成长的过程;其次,人工智能缺乏归纳因果关系的能力,由数据驱动的深度学习算法本质上还是在区分不同事物之间的相关性,而不能对事物之间的因果进行系统的阐述,从而导致智能体常常容易出错;最后,人工智能技术缺乏自主创造的能力,当前的算法仅仅是在模仿的阶段,尚不能形成自己的主观意识来进行相应的创作。如今人工智能技术的本质其实也只是神经网络构成的非线性函数在大数据上进行拟合的算法,这种在数据上的拟合行为使其很难泛化到不同的领域上,因此人工智能技术还是无法将知识内化、提炼并自适应地迁移到不同的领域。还有,如今人工智能算法的可解释性和可论证性仍然不足,缺乏足够的数学理论支撑,对于人类而言,人工智能内部仍然是一个黑箱。针对上述问题,我们对未来人工智能技术的发展作出以下预测:
从模型本身角度分析,未来人工智能技术的相关模型在宏观结构层面与当今甚至更早的感知机并没有很大的区别,但是其却拥有更大量的参数量以及计算量,能够处理更复杂的问题,同时也拥有更大型的数据集。
从发展方向分析,未来人工智能技术有可能从如今的弱人工智能迈向强人工智能,从处理一个个具体领域的问题,如医学影像分析或道路车辆识别,到处理庞大且复杂的系统性问题,如全球碳排放控制或全球变暖的问题。
从学习方式分析,未来人工智能可能会从由数据驱动的学习方式转变为因果关系驱动,从而建立一个知识、数据一体化的支撑智能体与环境交互的学习框架。同时在学习过程中,更注重智能体的伦理问题,让技术做得更对而不是更多。
从人工智能所处的环境分析,未来必将有更多、更丰富的数据资源以及支持可持续发展的数据经济体系来支撑人工智能技术的发展,同时也有更强力的算力体系来作为有力的硬件支撑,最后还会有完善的人工智能技术监管体系来保障人类的安全以及人工智能的可依赖性。
从产业发展分析,未来必定有更加完善的人工智能产业体系,人工智能将赋能到各行各业,成为引领社会变革的巨大生产力。在智慧城市、自动驾驶、制药、金融、设计、医疗等众多领域,人工智能系统都将成为数据驱动和知识驱动的决策者。
总体来说,在未来相当长的一段时间内,人工智能技术的发展机遇是巨大的,发展潜力更是不可估量的。当下,互联网经济和人工智能技术结合已经催生了很多人工智能独角兽公司,如专注于计算机视觉任务的商汤科技、旷世科技和依图科技等公司,专注于自动驾驶技术的小马智行、文远知行以及北京初速度科技有限公司(momenta)等,专注于智慧医疗的联影医疗以及迈瑞医疗等,还有专注于自然语言处理的科大讯飞等,这些都是我国人工智能产业化的累累硕果。未来,人工智能技术也必将得到更广泛的应用,发挥其更大的价值,从而成为引领社会变革的重要生产力。
(张广滔,严瀚,俞祝良)
[1] WIENER N.Cybernetics or control and communication in the animal and the machine[M].Cambridge:the MIT Press,1949.
[2] TURING A M.Computing machinery and intelligence[J].Mind,1950,59:433-460.
[3] ABRAMSON D.Turing’s responses to two objections[J].Minds and machines,2008,18(2):147-167.
[4] CREVIER D.AI:the tumultuous history of the search for artificial intelligence[M].New York:Basic Books,1993.
[5] KEMENY J G.Man viewed as a machine[J].Scientific American,1955,192(4):58-67.
[6]尼克.人工智能简史[M].北京:人民邮电出版社,2017.
[7]赫伯特 A. 西蒙.人工科学[M].武夷山,译.北京:商务印书馆,1987.
[8] DREYFUS H L.Alchemy and artificial intelligence[M].Santa Monica:RAND Corporation,1965.
[9] MINSKY M.The society of mind[M].New York:Simon & Schuster,1988.
[10] SIMON H A.The sciences of the artificial[M].Cambridge:The MIT Press,1969.
[11] WINSTON P H.Artificial intelligence:an MIT perspective[M].Cambridge:The MIT Press,1990.
[12]李杰.工业人工智能[M].上海:上海交通大学出版社,2019:56-60.
[13]波斯特洛姆.超级智能[M].张体伟,张玉青,译.北京:中信出版社,2015:44-46.
[14] HEBB D O.The organization of behavior:a neuropsychological theory[M].New York:John Wiley & Sons,Inc.,1949.
[15] ROSENBLATT F.The perceptron:a probabilistic model for information storage and organization in the brain[J].Psychological review,1958,65(6):386-408.
[16] MINSKY M,PAPERT S.Perceptrons:an introduction to computational geometry[M].Cambridge:The MIT Press,1969.
[17] NAWAZ M S,MALIK M,LI Y,et al.A survey on theorem provers in formal methods[J].arXiv preprint arXiv:1912.03028,2019.
[18]吴文俊.几何定理机器证明的基本原理(初等几何部分)[M].北京:科学出版社,1984.
[19] ROBINSON J A.A machine-oriented logic based on the resolution principle[J].Journal of the ACM(JACM),1965,12(1):23-41.
[20] ACKLEY D H,HINTON G E,SEJNOWSKI T J.A learning algorithm for boltzmann machines[J].Cognitive science,1985,9(1):147-169.
[21] LECUN Y,BOSER B,DENKER J S,et al.Backpropagation applied to handwritten zip code recognition[J].Neural computation,1989,1(4):541-551.
[22] HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural computation,2006,18(7):1527-1554.
[23] GLOROT X,BORDES A,BENGIO Y.Deep sparse rectifier neural networks[C].Proceedings of the fourteenth international conference on artificial intelligence and statistics.JMLR Workshop and Conference Proceedings,2011:315-323.
[24] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].arXiv preprint arXiv:1207.0580,2012 .
[25] HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C].Proceedings of the IEEE conference on computer vision and pattern recognition,2016:770778.
[26] RAINA R,MADHAVAN A,NG A Y.Large-scale deep unsupervised learning using graphics processors[C].Proceedings of the 26th annual international conference on machine learning,2009:873-880.
[27] CIREŞAN D C,MEIER U,GAMBARDELLA L M,et al.Deep,big,simple neural nets for handwritten digit recognition[J].Neural computation,2010,22(12):32073220.
[28] DENG J,DONG W,SOCHER R,et al.ImageNet:a large-scale hierarchical image database[C].2009 IEEE conference on computer vision and pattern recognition,IEEE,2009:248-255.
[29] HINTON G,DENG L,YU D,et al.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups[J].IEEE Signal processing magazine,2012,29(6):82-97.
[30] AMODEI D,ANANTHANARAYANAN S,ANUBHAI R,et al.Deep speech 2:End to-end speech recognition in English and mandarin[C].ICML16:Proceedings of the 33rd International conference on machine learning,PMLR48,2016:173-182.