人工智能的萌芽至少可以上溯到20世纪40年代。例如,1943年W.McCulloch和W.Pitts提出了首个人工神经元模型 [7] ,1949年D.Hebb提出了赫布规则 [8] 来对神经元之间的连接强度进行更新。但人工智能概念的正式诞生则要等到1956年的达特茅斯会议 [9] 。自那以后,人工智能60多年的发展历史几起几落,经历了三次热潮,但也遇到了两次寒冬(如图1.2所示)。
1956年夏天,J.McCarthy、M.Minsky、N.Rochester和C.Shannon等发起了为期2个月的10人参与的达特茅斯人工智能研讨会。该会议认为,如果学习或智能的各种特征可以被精确描述,就可以用一台机器来模拟智能,并尝试让机器使用语言、形成抽象概念、解决人类才能解决的各种问题,甚至自我完善 [10] 。这次会议的参会者有多人后来获得了图灵奖(包括J.McCarthy、M.Minsky和H.Simon等)。
由于参会者大多有着深厚的逻辑研究背景,达特茅斯会议驱动的第一次人工智能热潮是以符号逻辑为主要出发点的,也就是后来所谓的符号主义。理论上说,如果我们能用某种符号逻辑表示已有知识和要解决的问题,那么通过逻辑问题求解器就可以解决各种智能任务。秉承这个思路,A.Newell和H.Simon在达特茅斯会议上展示了推理计算机程序——逻辑理论家,该程序后来证明了很多数学定理。除此之外,第一次热潮还涌现出了几何定理证明者、国际象棋程序、跳棋程序、问答和规划系统等有一定影响力的成果。除了符号主义之外,连接主义在第一次人工智能热潮中也有所发展。该时期F.Rosenblatt提出了感知机模型 [11-12] ,这一神经网络模型受到了当时很多研究者的关注。
图1.2 人工智能发展历史
在第一次热潮的初期,人工智能研究者对未来非常乐观。1957年H.Simon就提出:“现在世界上已经有机器可以思考、可以学习、可以创造。它们的能力将迅速提高,处理的问题范围在可见的未来就能延伸到人类思维应用的范围。”他还预测计算机将在10年内成为国际象棋冠军,而40年后IBM的深蓝系统才成为国际象棋冠军 [13] 。由于研究者发现人工智能发展的难度远远超过了当初的想象,很快人工智能的第一次热潮就退去,进入了长达10余年之久的第一次寒冬。
人工智能第二次热潮到来的标志性事件是1982年日本启动了雄心勃勃的五代机计划,计划在10年内建立可高效地进行符号推理的智能计算系统。国际上还出现了一批基于领域知识和符号规则进行推理的系统,并有了一些较为成功的案例,包括医学领域的MYCIN和CADUCEUS。有的专家系统甚至在商业中发挥了实际作用。例如,DEC的专家系统R1可以按照用户的需求,为VAX型计算机系统自动选购软硬件组件。20世纪80年代中期,连接主义的神经网络方法也迎来了一次革命。反向传播学习算法 [14] 的提出,使得神经网络重新成为研究的焦点,成为与符号主义并驾齐驱的连接主义方法。
20世纪80年代末,人工智能开始结合数学理论,形成更实际的应用。隐马尔可夫模型(Hidden Markov Model,HMM)开始用于语音识别,提供了理解问题的数学框架,有效应对实际应用;信息论用于机器翻译;贝叶斯网络(Bayesian network)用于非确定的推理和专家系统,对非确定性知识提供了有效的表示和严格的推理。
应该说,在第二次热潮中,符号主义依然是旗手。无论是日本五代机使用的Prolog,还是专家系统MYCIN使用的LISP,其核心还都是符号逻辑的推理。但是,研究者逐渐发现,符号主义方法存在很多难以克服的困难,例如缺乏有足够表示能力同时又比较简练的逻辑,以及逻辑问题求解器的时间复杂度极高等。另一方面,连接主义方法(如神经网络)也没有找到真正落地的杀手级应用。随着1991年日本五代机计划的失败,第二次热潮退去,人工智能跌入了长达近20年的第二次寒冬。
2006年,G.Hinton 和R.Salakhutdinov在 Science 上撰文指出,多隐层的神经网络可以刻画数据的本质属性,借助无监督的逐层初始化方法可以克服深度神经网络训练困难的问题 [15] 。业界广泛认为,这篇论文吹响了深度学习(多层大规模神经网络)走向繁荣的号角 ,开启了人工智能第三次热潮。2012年,A.Krizhevsky、I.Sutskever和G.Hinton提出了一种新颖的深度学习神经网络——AlexNet [16] ,成为2012年ImageNet大规模视觉识别比赛(ImageNet Large Scale Visual Recognition Competition,ILSVRC)的冠军,从此深度学习得到了业界的广泛关注。随着数据集和模型规模的增长,深度学习神经网络的识别准确率越来越高,在语音识别、人脸识别、机器翻译等领域应用越来越广泛。2016年,谷歌DeepMind团队研制的基于深度学习的围棋程序AlphaGo战胜了人类围棋世界冠军李世石,进一步推动了第三次热潮的发展,使得人工智能、机器学习、深度学习、神经网络这些词成为大众的关注焦点。2022年11月,OpenAI的研究人员提出了ChatGPT,该模型的参数量约为1750亿,训练语料超过45 TB,具有可以回答各种开放性问题的能力,并且回答风格非常像人,在文本生成、信息提取、多语种翻译、自动写代码等任务上表现非常惊艳,使深度学习大模型受到各行各业的广泛关注。OpenAI于2023年3月发布了GPT-4,其表现更优于ChatGPT,并且是一个多模态模型,能同时接收图像输入和文本输入。微软的研究人员在对GPT-4进行详尽的实验后表示,它或许是强人工智能的雏形。
第三次热潮中的人工智能与达特茅斯会议时已经有显著的区别,连接主义成为压倒性的主流。而60多年前达特茅斯会议上最核心的符号主义方法,却已经少有研究者关注。