简单来说,人工智能就是复制人类智能。这个目标又可以分解为三个核心问题:怎么定义智能(也可以理解为怎么评判是否算智能)?如何实现智能?怎样使用智能?人工智能领域围绕着这三个问题,发起了一轮轮探索,开创了一个个里程碑。
古代人对于复制人类意识充满想象。例如,在古希腊神话里,掌管火与工匠的神赫菲斯托斯是一位技艺高超的铁匠,他制造了一批女性形象的机器人,被称为“黄金女孩”,“她们有会思考的心智,通说话语,行动自如”。
在我国的神话里,动物和植物修炼成精、具备人类意识的故事不胜枚举。关于机器人也有一则故事,《列子·汤问》记载了一个偃师制造了机器人并将其献给周穆王的故事。对于机器人的描述原文如下:
巧夫顉其颐,则歌合律;捧其手,则舞应节。千变万化,唯意所适。王以为实人也,与盛姬内御并观之。技将终,倡者瞬其目而招王之左右侍妾。
王大怒,立欲诛偃师。偃师大慑,立剖散倡者以示王,皆傅会革、木、胶、漆、白、黑、丹、青之所为。王谛料之,内则肝、胆、心、肺、脾、肾、肠、胃,外则筋骨、支节、皮毛、齿发,皆假物也,而无不毕具者。合会复如初见。王试废其心,则口不能言;废其肝,则目不能视;废其肾,则足不能步。
从古文记载可以看到,偃师制造的机器人不仅能歌善舞,还能根据人的指令做出相应回应。周穆王原以为是真人假扮成机器人,但拆解后发现,虽然机器人外有筋骨皮毛、内有肝胆心肺,但确实都是用各种材料制造而成的,每个部件功能明确,可谓天工之作。
这则故事的真伪无法考证,普遍认为它是虚构的,主要表达了《列子》作为道家学派的著作对天、地、人的思考。偃师制造机器人的故事,对人类的主观能动性进行了高度肯定,对复制人类意识进行了多彩畅想。
可以看到,无论是古希腊还是我国古代的神话,对机器人的终局期待都是“像真人一般”。然而,人的想象力可以一步到位,科学研发却往往是步步为营。在研发自主意识机器人这条漫漫征途的起点,首先要解决的核心问题是:如何判断机器有智能,标准是什么?
在这个问题的探索上,最具有代表性且获得广泛认可的标准当属“图灵测试”。1950年,艾伦·图灵发表了一篇非常重要的论文,题为《计算机器与智能》。在论文开头,图灵就提出了一个关键问题:机器可以思考吗?
图灵在论文中表示,虽然“智能”比较难定义,但是可以通过测试方法来判断:如果机器能够在双方不接触的对话中模仿人类进行交流,以至于观察者都无法区分交流对象到底是人类还是机器,那么这台机器就可以被认为“具有智能”,这个过程如图1-1所示。
图1-1 图灵测试示意图
资料来源:CSDN。
图灵测试并不完美,例如只关注了语言交流而忽略了其他智能表现,但不可否认的是,图灵测试仍然是人工智能发展中的重要里程碑,是经典的评估标准,促使人工智能从“幻想”进化到了“可定义”。图灵的论文也吸引了众多优秀人才参与机器智能的研究,引发了学术界关于机器学习、意识等方面的深入思考。
从此,人工智能开启了科学研究的新征程。
1956年通常被认为是人工智能元年。那一年,在美国新罕布什尔州达特茅斯学院担任数学系助理教授的约翰·麦卡锡作为主要发起人,举办了一场叫作“人工智能夏季研讨会”的学术会议。
这场会议具有很强的偶然性。当时美国大学的传统是9个月的聘用期,因此,教职人员需要在假期的3个月自行“拉赞助”来解决收入问题。麦卡锡等人就以人工智能研究的课题获得了洛克菲勒基金会资助的一笔经费。
这场会议规模不大,但“群英荟萃”,参会人员包括哈佛大学数学系和神经学系青年研究员马文·明斯基、贝尔实验室数学家克劳德·香农、IBM(国际商业机器公司)信息研究主管纳撒尼尔·罗切斯特等10余位学者。
这次会议历时近两个月,然而,关于如何实现人工智能并没有达成共识,会议结束时也没有产生轰动学术界的大会论文或报告。但是,这场会议就像点燃了“星星之火”,参会人员把对于人工智能的兴趣、思考、分歧、讨论,从达特茅斯学院带回了各个地方。此后,关于人工智能的研究开始有了体系化的发展。
这个时期的研究中,有两大学派逐渐形成,分别是符号主义(也称为逻辑主义)和联结主义(也称为连接主义),这也成为随后60余年,人工智能发展的两条主要路线。
符号主义学派认为,人类认知和思维的基本单元是符号,认知过程就是对这些符号进行操作和计算的过程,因此可以将世界的物体、关系等也都抽象为符号,并通过逻辑计算来模仿人类思考。人和计算机都可以被看成具备逻辑推理能力的符号系统,从而将人类智能和机器智能的理论实现统一。
简单地说,就是“编好规则”。
这个思路的关键在于对知识进行编码,形成数据库,继而通过规则系统、推理引擎进行推断,解决问题。
符号主义最著名的成果之一是艾伦·纽厄尔和赫伯特·A. 西蒙等人开发的程序“逻辑理论家”,人们普遍认为这是第一个人工智能程序。该程序能够证明《自然哲学的数学原理》中的数学定理,向世人展示了计算机在逻辑推理方面的能力。
另一个典型成果是聊天机器人鼻祖ELIZA,它可以针对某些关键词进行交流答复。虽然ELIZA只有200行程序代码和有限的对话库,基于单纯的规则,并不理解聊天内容,但依然引起了大众的惊叹。
当然,符号主义也有很多不足,例如在知识的自动获取、多元知识的自动融合、常识知识的处理以及不确定知识的表示和求解方面,都遇到了不少障碍。然而,由于符号主义的理念容易被理解、功能容易实现(包括规则编制等),所以迅速成为主流,得到快速发展。
联结主义也是重要学派。该学派认为,智能应该是内在的思维过程,也就是人类大脑各神经元之间进行信息交流、信息处理的表现。因此,只要建立一套可以模拟大脑神经系统结构的人工神经元网络,就能实现相应的智能行为。现在很流行的“神经网络”就是联结主义的门徒。
简单地说,就是“造个大脑”。
它的工作方式是,给定一些数据,机器可以自己学习、总结出规律,然后举一反三。可以看到,联结主义与符号主义的一个显著区别是,符号主义需要人为给定规则,而联结主义则可以让机器自己总结规律。
联结主义的先驱有美国心理学家沃伦·麦卡洛克和数学家沃尔特·皮茨,他们在1943年共同提出了麦卡洛克-皮茨模型,也被认为是最早的神经元网络模型。
联结主义最著名的成果之一是,1957年,弗兰克·罗森布拉特在IBM的基础上发明的感知机模型。感知机在前期主要用来做图像识别,它的逻辑结构包括输入层、权重、偏置、激活函数、输出层等,而物理结构则采用光探测器模拟人类的视网膜,用电子触发器模拟神经元等。
对于人类大脑有多少个神经元,学术界还没有统一观点,通常认为是860亿个左右。这个数量级别是20世纪60年代的硬件能力难以模拟实现的。因此,联结主义虽然有一段辉煌的时间,但在较长一段时间内陷入了沉寂。
由此可以看出,联结主义并非原理有重大缺陷,而是其发展与算力高度相关。
从达特茅斯会议之后,整个社会对人工智能的热情空前高涨,政府也出资支持研究,一些人工智能产品陆续问世。例如,IBM科学家阿瑟·塞缪尔编写了一套西洋跳棋程序,在1962年成功战胜了当时的西洋跳棋大师罗伯特·尼利。再如,美国斯坦福研究所研制了世界上第一台移动式智能机器人Shakey,它可以自主进行感知、环境建模、行为规划并执行任务,例如寻找木箱并将其推到指定位置等。
然而,由于当时的计算能力和存储能力有限,以及推理规则仍不够完善,所以人工智能产品虽然很惊艳,但实用性不强,甚至连翻译工作也不能保证准确率,时常偏离原意。
1973年,英国著名数学家詹姆斯·莱特希尔发布了一份关于人工智能发展状况的调查报告,名为《人工智能:综述》(也被俗称为《莱特希尔报告》)。该报告认为,当时的人工智能都是夸大其词,实际效果很差,研究已经彻底失败。随着该报告的传播,各国政府对于人工智能的投资也大幅削弱,人工智能领域迎来了一次低谷。
客观地说,这份报告对当时状况的总结是正确的,但评价却并不客观。人工智能的早期研究正是燎原之星火,为后续的发展奠定了基础并指引了方向。
人们对人工智能应用的期许是,它可以比绝大多数人“更聪明”,这就是专家系统的初衷。所谓专家系统,就是让系统基于“专家知识库”,根据编写的规则进行逻辑推理,生成接近专家水平的决策信息,从而协助人类(普通人或专家)提高工作效率并解决复杂问题。知识库既包括客观知识,也包括专家特有的经验,可以直接采用、实践。因此,专家系统也可以被认为是“知识库+推理机”的组合。
1965年,美国斯坦福大学的爱德华·费根鲍姆教授设计出了第一个专家系统DENDRAL。它具有丰富的化学知识,可以根据质谱数据,帮助化学家快速推断物质的分子结构。随后,麻省理工学院也开发了应用于数学领域的MACSYMA系统(通用公式推演系统)。
1972年,美国斯坦福大学开始研制医疗领域的专家系统MYCIN,该系统主要用于诊断和治疗感染性疾病。在测试中,MYCIN成功处理了多个病例,展现了较高的医疗水平,被认为是经典的专家系统,也是后来许多专家系统的基础。MYCIN的优点包括:架构清晰,提出了知识库的概念;使用自然语言同用户对话,可以回答用户提出的问题;可以根据知识库给出建议,通过学习扩充新知识、新规则等。
专家系统在学术界引起了不小的轰动。但一项技术必须有商业价值才能吸引更多的社会关注,专家系统也是如此。它在商业领域的应用,才真正再次点燃了大众对人工智能的热情和期待。其中,最具代表性的商业应用是XCON系统(进行计算机系统配置的专家系统)。
1980年,美国卡内基梅隆大学研发的专家系统XCON(前身为RI系统)正式商用。当时正赶上小型计算机在美国逐步普及,但如何配置合适的小型机还是一个比较专业的工作(更标准化的个人台式计算机还没有普及),因此XCON最初的设计目的是帮助计算机销售企业做业务。该系统可以根据用户订单,自动选择最合适的计算机系统部件,如CPU(中央处理单元)型号、操作系统种类、存储器、外部设备及电缆等,并生成系统配置清单和部件装配关系图,从而大大提高这个环节的效率和准确度。
RI系统的一个大客户是DEC公司(美国数字设备公司),该公司的主要业务是销售小型计算机。它率先在公司内部使用RI系统,而且把系统规则数量从原来的750条增加到3 000多条,大大增强了系统功能,RI系统也被正式命名为XCON系统(字母取自“expert configurer”,即配置专家)。
对于XCON的使用效果,网络上通常会引用一个海外数据(由密德萨斯大学统计),即截至1986年,XCON为DEC公司处理了8万个订单,准确率达到95%~98%,每年可以帮助DEC公司节省2 500万美元。DEC公司在20世纪80年代初业务快速发展,成为当时仅次于IBM的全球第二大计算机公司,业务遍布100多个国家和地区。
DEC公司对专家系统的使用具有很好的示范效应。许多公司纷纷紧随其后,开始在公司内部署专家系统。
随着专家系统在商业领域的使用,政府又开始为人工智能研发提供赞助支持。1981年,日本通商产业省组织了日本主要的8家计算机公司,计划耗资5亿美元,用10年时间,共同研发“第五代计算机”。该项目的最终目的是造出一台人工智能计算机,能够实现与人对话、翻译语言、解释图像、完成推理等功能。英国政府也在1982年启动了“阿尔维计划”,预计在10年内用3.5亿英镑全面推进软件工程、人机接口、智能系统和超大规模集成电路等领域的研发。
可以说,专家系统是当时符号主义的巅峰之作。学术、商业、政府多方面的全新进展,让人们忘记了1973年《莱特希尔报告》的悲观,并再次对人工智能充满期待。
虽然DEC公司积极使用了人工智能的新技术,但却低估了另一个新趋势——个人计算机的爆发。DEC公司过分依赖成功路径,从小型计算机到个人计算机的转型过慢,随着小型计算机不再流行,公司业务逐年下滑,最终被康柏公司收购。这也充分说明,任何时候都不应该低估“新”趋势——包括但不限于新技术、新服务、新产品形态等。
在专家系统代表符号主义盛行的同时,联结主义也在低调“发育”。研究人员一直在探索一个问题:如何能让机器更好地自主学习?1986年公布的反向传播算法(BP算法)推动了神经网络的发展,成为联结主义的关键一跃。
1986年,杰弗里·辛顿、戴维·鲁梅尔哈特和罗纳德·威廉斯共同发表了一篇题为《通过反向传播算法的学习表征》(Learning Representations by Back-propagating Errors)的论文。在论文中,他们提出了一种适用于多层感知器的算法,叫作反向传播算法(见图1-2),即利用链式法则,逐层计算每个参数的梯度,然后利用这些梯度来更新权重。此处不再对该算法进行过多解释,需要强调的是,该算法解决了多层神经网络的训练问题。在此之前,简单的神经网络只能求解线性问题,而反向传播算法使神经网络能够处理非线性问题,极大地扩展了神经网络的应用范围。
图1-2 多层感知器和反向传播算法示意图
资料来源:CSDN。
不过反向传播算法也有自身缺陷,例如在训练深层结构时会遇到梯度消失或梯度爆炸的问题。
如何理解呢?如果采用不完全精确的通俗表达,以爬山为例,梯度消失就是,从山顶到山谷,每次只能走一小步,但越往下,每一步的步距会越来越小,导致越走越慢、越走越无效。在训练中,梯度值越来越小时,训练就会变得非常缓慢,甚至无法更新权重,导致训练无效。梯度爆炸就是,站在陡峭的山坡上,只要稍微用力、跨大步距,就跨过山谷到对面的山坡上去了。在训练中,梯度爆炸会导致训练十分不稳定,无法控制学习的过程,结果也完全不能用。
反向传播算法遇到的问题在现实中也很关键,相当于人工智能有个枷锁,而且埋下了一颗“地雷”,这也导致神经网络方面的研究一度消沉。幸运的是,正所谓“解铃还须系铃人”,反向传播算法遇到的困难最终还是由它的“发明人”提出了解决办法。
2006年,辛顿和他的同事又发表了一篇论文,题为《深度信念网络的一种快速学习算法》(A Fast Learning Algorithm for Deep Belief Nets)。这篇论文提出了深度信念网络的概念,并介绍了一种称为“逐层预训练”的技术。该技术的思路是分步骤地训练网络中的每一层,而不是同时训练整个网络。
逐层预训练较好地解决了反向传播算法遇到的困难。例如,可以逐层优化网络参数,确保每一层在训练时都更容易找到较优的局部解,从而为后续层的训练提供更好的起点,由此减少梯度消失或梯度爆炸的出现。而且,逐层预训练可以将复杂的训练任务分解为多个简单的子任务,这可以降低整体训练的难度,提高训练效率,也能大幅改善模型性能。
一句话总结就是,逐层预训练使神经网络变得可控、高效。于是,神经网络开始商用于文字图像识别、语音识别、数据挖掘等任务场景。
另外,神经网络的快速发展既得益于算法的改进,也离不开计算能力提升的支持,使高效训练成为可能。例如,1985年,英特尔决定从存储业务进军CPU领域,正式拉开了算力飙升的大幕。随后在摩尔定律(每18个月到24个月,处理器的性能翻一倍,同时价格下降为之前的一半)的驱动下,CPU计算能力飞速发展。以CPU主频为例,1986—2006年,其从12.5MHz(兆赫)提升至2.93GHz(吉赫),扩大了200多倍。在CPU之后,计算能力更强大的GPU(图形处理单元)为人工智能带来了更加显著的进步。
芯片计算能力的指数级上升,相当于给人工智能发展找到了算法之外的另一条道路——算力,尤其是可以享受到摩尔定律的红利。
与之相反,专家系统却由于规则更新慢、无法自主学习等限制,并不能享受到算力芯片性能提升的红利,系统性能越来越落后,逐渐被学术界降低了研发力度。
神经网络的发展,相当于机器可以越来越高效地自己学习。由此,人工智能驶入了快车道。
2006年,在斯坦福大学任教的华裔科学家李飞飞专注于图像识别领域的人工智能研究。她认为目前人工智能的效果还不够好,不能准确识别图像里的信息,这是因为人工智能所需要的数据还远远不够。于是,她发起创建了一个大型的图像数据集项目ImageNet(一个用于视觉对象识别软件研究的大型可视化数据库),希望大家能够上传图像并标注图像内容,为人工智能在图像识别领域提供充足的数据。2009年,ImageNet正式发布,数据库收录了1 500万张图片,覆盖了22 000个不同类别。
2010年,ImageNet邀请全球开发者和研究机构,通过大规模视觉识别挑战赛(ILSVRC)来进行人工智能图像识别算法评比。前两届比赛影响力不大,参赛人员数量甚至出现下滑,但2012年就不一样了——杰弗里·辛顿来了。
2012年,辛顿和他的学生伊尔亚·苏茨克维、亚历克斯·克里切夫斯基共同设计的深度卷积神经网络模型AlexNet在比赛中大获全胜,识别准确率高达85%,比上一年的冠军高出10个百分点。这样压倒性的优势再次引起业内轰动,也迅速成为图像识别任务中最受欢迎的技术。
如图1-3所示,AlexNet和之前的算法(LeNet)相比,大很多,也复杂很多。
例如,之前的算法采用2个可训练的层、25个神经元、12 000个参数,而AlexNet则采用8个可训练的层、65万个神经元、6 000万个参数,可谓优势巨大。
为什么AlexNet可以做到这样的规模?因为他们发现了GPU的神奇之处。
之前的人工智能训练大多是采用CPU进行的。CPU的优势是逻辑运算,而GPU的优势则是大规模的并行计算。粗糙地打比方来说,一块CPU就是一名教授,可以计算高深问题,可以指挥调度;而一块GPU就是一群高中生,虽然不擅长计算高深问题,但计算普通问题就可以发挥人海优势。并行计算,可以大幅节约时间,提升计算效率。
图1-3 从LeNet(左)到AlexNet(右)
资料来源:CSDN。
GPU可以用于人工智能领域,也得益于英伟达在2006年发布的CUDA产品。CUDA是一种并行计算平台和编程模型,它利用英伟达GPU的强大计算能力,为通用计算任务提供加速。这一创新极大地推动了高性能计算、机器学习等领域的发展。
2012年辛顿参赛的AlexNet算法,训练时仅用了一对英伟达GPU。另一个例子是,吴恩达在谷歌时曾用2 000多块CPU搭建深度学习服务器,而随后仅用12块GPU就实现了相同的效果。
辛顿团队的探索,不仅让人工智能可以完成高精度的图像分类任务,更为人工智能发展提供了新的思路:一是GPU芯片的使用大幅提升了人工智能的算力,使训练能力大幅提升;二是李飞飞发起的项目,使数据量大幅提升;三是深度卷积神经网络让业内意识到了大参数的重要性。
至此,研究人员总结出人工智能不再是由传统的知识驱动,而是由三大要素驱动,即算法、算力、数据。每个要素都是关键驱动力。
由于AlexNet的优异表现,辛顿和他的学生受到了科技巨头的追捧。2012年12月,辛顿及其学生共同设立的公司DNNresearch刚刚“满月”没多久,就被谷歌、微软、DeepMind(深度思考)和百度四家公司以竞拍的方式竞相收购。最终,谷歌以4 400万美元成为赢家,完成了对辛顿及其学生的人才收购。谷歌随后就将这项技术应用到了自己的相册产品中,推出了新的图片搜索功能,也推动了谷歌街景业务的发展,实现了非常显著的商业化。
不过,2012年这场竞拍并没有输家。
竞拍刚结束,2013年1月,百度就成立了专注于深度学习的研究院,即百度深度学习研究院(Institute of Deep Learning)。随后,百度在美国加利福尼亚州的库比蒂诺建立了人工智能实验室,成为国内第一家将深度学习提升到核心技术创新地位的公司,不仅和海外巨头在人工智能领域并驾齐驱,而且有更前瞻的探索,例如率先把深度学习应用到搜索优化里,甚至比谷歌还要早。
进入2014年,百度先后邀请到谷歌大脑创始人吴恩达、Anthropic(美国人工智能企业)的联合创始人兼首席执行官达里奥·阿莫迪、英伟达人工智能研究科学家范麟熙等人加入。这些顶级人才也推动了百度在人工智能领域的不断进步与发展。
2024年,约翰·霍普菲尔德和杰弗里·辛顿两人也因“在使用人工神经网络的机器学习方面的基础性发现和发明”
,共同获得了诺贝尔物理学奖。
总结来看,经过60余年的发展,研究人员对于人工智能“如何更加智能”的驱动力越来越清晰,人工智能越来越聪明,精准度越来越高,而且在语音、图像识别等领域,也都有了商业化项目的落地。但是,人工智能离通用化能力还有一段距离,需要研究人员继续探索。
2017年6月,谷歌的八位工程师共同发表了一篇论文,题为《注意力就是你所需要的一切》(Attention Is All You Need)。这篇论文的初衷是解决自然语言处理(NLP)和机器翻译领域对更高效、更强大模型的需求。
在该论文发表之前,自然语言处理中大都采用基于循环神经网络(RNN)的编码器-解码器(Encoder-Decoder)结构来完成序列翻译。
原理不再详解,需要强调的是RNN模式的缺点:循环结构导致它在处理数据时需要按时间逐步展开,每个时间步的计算必须等待前一个时间步的计算完成,因此速度缓慢且无法并行计算,也就无法将GPU并行计算的威力发挥到最大。
随后,谷歌提出了Transformer模型(一种基于自注意力机制的神经网络架构),通过使用多头注意力(Multi-Head Atten tion)和位置编码(Positional Encoding)机制,能有效捕捉序列数据中的长距离依赖关系。
如图1-4所示,简单来说这个模型有两大创新。
一是“自我注意力”机制,只关心输入信息之间的关系,不再关注输入和对应输出的关系。这样既节省了之前需要的人工数据标注费用,也可以更准确地猜测哪些信息影响最大、最有关联、最应该被展示。二是摒弃了递归结构,可以同时处理序列中的所有元素,实现并行计算。这不仅是算法的提升,更可以充分挖掘GPU的优势,与算力结合更加紧密。
图1-4 Transformer模型
资料来源:Ashish Vaswani, Noam Shazeer, Niki Parmar, et al.,“Attention Is All You Need”,2017。
Transformer确实改善了机器翻译的效果。但是,《注意力就是你所需要的一切》这篇论文在发表之初,并没有产生非常大的影响,甚至在发布当年的人工智能会议上都没有获奖。
然而,Transformer的威力终究还是被业内看到了。2018年6月,OpenAI(开放人工智能研究和部署公司)基于Transformer发布了GPT系列模型的第一版GPT-1。GPT就是“Generative Pre-trained Transformer”的缩写,即生成式预训练变换器。随后谷歌也发布了BERT模型(一种预训练的自然语言处理模型)。
2019年初,百度语音团队发布了在线语音领域全球首创的注意力大模型SMLTA(Streaming Multi-Layer Truncated Attention,流式多级截断注意力)。该模型专门为解决Transformer应用于在线语音识别任务时遇到的问题而设计。SMLTA相对准确率提升了15%。2021年,百度发布了该模型的第二个版本,用来克服传统Transformer模型在处理长音频数据时遇到的计算爆炸、焦点丢失等问题。
这些新的模型,已经开始广泛应用在工业界,但并不为大众所了解。然而,2022年11月,OpenAI发布了基于GPT模型的人工智能对话应用服务——ChatGPT,对话带来了相当惊艳的效果。在发布后的两个月里,ChatGPT的月活用户规模量就突破了1亿。随后,微软公布了即将给OpenAI投资100亿美元的消息,于是大模型在全球爆火,成为话题中的话题、热点中的热点。
大模型(也称基础模型),是指基于广泛数据(通常使用大规模自我监督)训练的模型,大模型的发展标志着特定任务模型向通用任务模型的转变,目前在各类领域均有广泛应用,如自然语言处理、计算机视觉、语音识别和推荐系统等。自OpenAI推出GPT-3后,业界常说的大模型便更多聚焦在大语言模型(LLM)上,通过在海量无标注数据上进行大规模预训练,能够学习到大量语言知识与世界知识,并通过指令微调、人类价值对齐等关键技术,获得面向多任务的通用求解能力。为便于阅读,本书也将大语言模型简称为大模型。
大模型如此令社会关注,核心亮点是其展现出的涌现能力、泛化能力(后文会讨论),不仅在语言领域有效,也逐渐应用于图像视频、自动驾驶等方向,这让人们看到了通用人工智能(Artificial General Intelligence,AGI)的可行性,以及大模型在各个领域的商业化前景。
至此,我们可以看到,人工智能虽然历经数次预期破灭的低谷,但并不是毫无进展,而是在各种技术路线中不断探索,在各种影响智能效果的要素中不断尝试,才对影响人工智能性能的要素有了更深刻的认知,即算法、算力、数据,才有了实现通用人工智能的可能(见图1-5)。人类的预期会波动,但技术永远在前行。尽可能地发挥技术价值,利用技术红利,这就是回顾历史的意义。
图1-5 人工智能历史进程
图灵认为,智能虽然无法精准定义,但可以通过测试来判断,并提出了著名的“图灵测试”,当无法区分交流对象到底是人类还是机器时,那么这台机器就可以被认为“具有智能”。
1956年被认为是人工智能元年,这一年美国达特茅斯学院数学系助理教授约翰·麦卡锡发起了“人工智能夏季研讨会”。
人工智能主要有两条发展路线:符号主义,即“编好规则”,需要人为设置规则,代表形式是专家系统;联结主义,即“造个大脑”,由机器自主学习,代表形式是神经网络。
1973年,《莱特希尔报告》问世,认为人工智能并没有取得什么效果。
专家系统,也可以被认为是“知识库+推理机”的组合,是符号主义的巅峰之作。XCON是最有名的商业化专家系统,由DEC公司率先使用。
辛顿等人提出了反向传播算法,加速了神经网络的发展。但反向传播算法有梯度消失或梯度爆炸的缺陷。辛顿等人提出的逐层预训练方法,克服了反向传播算法的缺陷,促进神经网络更加可控、高效。
相比于符号主义,联结主义更容易享受到摩尔定律的红利,从而逐渐成为技术主流。
李飞飞为了提高人工智能在图像识别领域的能力,发起了大规模视觉识别挑战赛。辛顿团队的深度卷积神经网络模型AlexNet向业界展示了模型参数和复杂度提高后,精准度也会提升。研究人员开始意识到“大”的重要性。
深度卷积神经网络模型的发展离不开GPU的支持。尤其是2006年英伟达发布的CUDA,使GPU的并行计算能力可以应用于通用计算领域。
2012年,谷歌成功收购了辛顿团队,完成了人才引进。
2013年,百度成立了深度学习研究院,与海外巨头在人工智能领域并驾齐驱,并在全球范围内率先将深度学习用于搜索产品中。
深度卷积神经网络大幅提高了人工智能图像识别的精度,也向业内揭示了人工智能新的发展思路:算法、算力、数据。
谷歌提出的Transformer模型成为GPT的基础,其展现的涌现能力、泛化能力非常重要。