



信息时代,人工智能已经不再是科幻小说中的设想,而是人们日常生活中不可或缺的一部分。从智能手机的语音助手到在线客服,从自动驾驶汽车到个性化推荐系统,人工智能正以它独特的方式,让人们的生活变得更加便捷和丰富多彩。
本章将带领读者穿越人工智能的历史长河,了解从其萌芽诞生到不同学派的形成历程,以及人工智能在当今社会中的应用和影响。希望通过这段旅程,读者不仅可以了解人工智能的发展过程,认识到人工智能的多样性和复杂性,更能感受到其中蕴含的人文精神和社会责任。
在探索人工智能的丰富历史之前,首先需要理解人工智能的本质和内涵。“人工智能”(Artificial Intelligence,AI)这一术语由Artificial(人造的)和Intelligence(智力)组成,指的是通过计算机系统模拟、延伸和扩展人类智能的科学与技术。
从字面理解,人工智能意味着由人类创造的智能,是对自然智能尤其是人类智能的模仿。《现代汉语词典》将智能定义为“智慧和才能”或“具有人的某些智慧和才能”,《牛津高阶英语词典》则将其描述为“以逻辑的方式学习、理解、思考事物的能力”。这些定义虽然简洁,却道出了智能的核心特质。从认知科学的角度来看,智能是知识与智力的总和。知识是一切智能行为的基础,而智力则是获取知识并应用知识解决问题的能力。知识阈值理论强调,智能行为取决于知识的数量及其一般化的程度,智能就是在巨大搜索空间中迅速找到一个满意解的能力。这种能力不仅体现在复杂的科学研究中,也体现在日常生活的每个决策中,如下棋、驾驶、社交互动等。
人类智能展现出丰富而复杂的特征。首先,我们通过眼、耳、口、鼻、皮肤等器官感知外部世界,这是信息的输入途径;接着,我们的记忆系统存储这些感知到的信息和加工产生的新知识,思维则对记忆中的信息进行处理;同时,我们具备学习能力,无论是有意识还是无意识地获取新知识;最后,我们的行为能力将思维转化为行动,对外界产生影响,这是信息的输出。这四大核心能力——感知、记忆与思维、学习、行为——构成了人类智能的基本框架。人工智能系统则试图模仿这些能力。机器感知对应人的感知能力,通过各种传感器、摄像头、麦克风等设备收集数据;机器思维对应人的记忆与思维能力,通过算法处理和分析数据,进行推理和决策;机器学习对应人的学习能力,通过统计方法和神经网络等技术从数据中学习模式和规律;机器行为对应人的行为能力,通过各种执行器和界面将决策转化为实际行动或输出。从本质上看,人工智能是在用计算机的方式实现人类思维的过程。尽管如此,人类智能与机器智能仍存在显著差异。人类智能具有自主性、创造性和情感性,能够理解隐喻、处理模糊信息、进行横向思考;而机器智能则以精确计算、大规模数据处理和特定任务的高效执行为特长。人类智能是自然进化的产物,融合了理性与感性,而机器智能则是人类有意设计的结果,通常专注于理性推理和特定目标优化。人类能够从少量例子中学习并泛化,而传统机器学习则需要大量数据的支持。不过,随着技术的发展,这些界限正变得越来越模糊。从技术层面看,人工智能的终极目标是创造出能够像人一样思考和行动的计算机系统。这个目标可以分解为多个层次:从实现特定任务的弱人工智能(如语音识别、图像分类),到具备人类水平智能的强人工智能,再到超越人类智能的超级人工智能。当前,人工智能已经在众多特定领域超越了人类,但通用人工智能仍然是一个遥远的目标。
人工智能研究的意义极为深远。正如谷歌CEO桑达尔·皮查伊所言:“人工智能带给我们生活和工作的改变,甚至将超过火和电。”首先,AI技术使计算机更加智能、更加实用,改善了人机交互体验;其次,它扩展了人类智能的边界,使人们能够处理过去无法想象的复杂问题;第三,它满足了信息化社会的迫切需求,为大数据时代的信息管理提供了有力工具;第四,它推动了自动化技术的发展,提高了生产效率和安全性;最后,也是最重要的,研究人工智能有助于我们探索人类自身智能的奥秘,更深入地理解我们是谁,以及是什么使我们成为人类。
人工智能不仅是一门技术,也是一面镜子,反映着人类对自身认知能力的理解和探索。通过创造机器智能,我们不断挑战和重新定义智能的边界,也不断发现人类智能的独特价值。在接下来的章节中,我们将探索人工智能从理论构想到实际应用的发展历程,见证这一令人着迷的科技领域如何一步步改变我们的世界。
厚积薄发:人工智能的崛起之路
人工智能的发展犹如一棵不断生长的大树,从最初人类对智能机器的想象和憧憬开始,逐渐发展,到今天已成为改变世界的革命性技术。这条崛起之路凝聚了几代人的智慧与汗水。从科学家们在达特茅斯会议上的宏伟构想,到经历低谷与复兴,再到深度学习、大模型等技术革新,每一步都体现着“厚积薄发”的发展规律,说明真正的技术突破往往需要经过长期的积累与沉淀。
人类对智能机器的幻想远早于现代计算机的诞生。自古以来,各大文明的神话传说中无不流传着关于智能机械的构想,人工智能的最初概念也正是通过这些梦想的种子得以萌芽。
1.梦想的种子:早期智能构想
在西方,关于智能机器的最早构想可以追溯到古希腊时期。古希腊诗人赫西俄德(Hesiod)的诗歌《神谱》( Theogony )中提到了塔罗斯(Talos),希腊神话中一个由火与工匠之神赫菲斯托斯(Hephaestus)打造的机械巨人。塔罗斯被赋予了守护克里特岛的职责,他以青铜为身,围绕岛屿巡逻,用巨石攻击任何敢于靠近的敌人。
塔罗斯虽然只是一个神话中的角色,但它体现了古希腊人对机器和人工生命的初步构想。这种关于自我行动的机械体的概念的出现,代表了古代人类对智能和自动化的早期展望,对现代人工智能和机器人领域具有重要的象征意义。
除了西方,东方文化中也有许多关于自动机械的传说和发明。在中国古代,自动机械的概念已有数千年的历史。《墨子》中记载了一种名为“木鸢”的自动飞行器,据说是由传奇工匠鲁班发明的。木鸢是一种木制的风筝,可以在天空中飞行三天三夜。更有民间故事传说,鲁班曾制造过许多木头人,它们不仅形态逼真,还能模仿真人的动作,甚至能够代替人完成一些工作。另一个著名的例子是商代的“机关车”,这是一种由水力驱动的自动化装置,用于运输和灌溉。
西方进入中世纪时期后,自动机械的概念进一步发展,尤其是在阿拉伯世界和欧洲文艺复兴时期。例如,伊斯兰学者阿尔·贾扎里(Al Jazari)在12世纪设计和制造了多种自动装置,其中最著名的便是“大象水钟”,这是一种复杂的时钟,能够通过机械装置自动鸣响报时。每隔30分钟,当水钟达到阈值时,内部装置就会启动,塔顶上的鸟会鸣叫,男人向龙的嘴里投掷球,机械驯象师会敲击机械大象的头。
文艺复兴时期,意大利艺术家和工程师达·芬奇(Leonardo da Vinci)也设计了多种自动机械装置,包括著名的机器狮子和机械骑士。达·芬奇设计的机械骑士是一种可以通过绳索和滑轮系统操控的机器人,它能够模拟人类的基本动作,如站立、挥手和移动。虽然人们无法确定机械骑士是否曾经真的被制造出来,但其设计图纸展示了达·芬奇对人工生命和智能机械的深刻思考,后人也根据设计图纸制造了模型,如图1-1所示。
图1-1 达·芬奇机械骑士模型
尽管上述发明主要用于娱乐和展示,并不是真正的“智能”装置,也远没有达到现代人工智能的复杂程度,但它们展现了早期东西方工匠对自动化机械的浓厚兴趣和探索精神,也激发了后人的好奇心。
2.图灵与“会思考的机器”
工业革命的到来,促使自动化机械的概念逐渐由构想演变为更为复杂的实践。在20世纪初,随着电气工程和计算机科学的发展,自动化机械的概念开始在科学研究领域兴起。
艾伦·图灵(Alan Turing)是20世纪最具影响力的数学家之一,也是现代计算机科学和人工智能的奠基者。在探索计算机潜力的过程中,图灵提出了“会思考的机器”的概念,他设想了一种机器,可以通过操作符号来模拟人类的思维过程,从而实现某种形式的智能。这一设想不仅挑战了当时的技术极限,也引发了广泛的哲学讨论,关于机器是否能够真正“思考”的问题从那时起就成为科学界普遍关注的核心话题之一。图灵的思想为人工智能奠定了基础,虽然当时的技术尚无法实现这一愿景,但也为后来者指明了方向,他的设想促使后来者思考如何通过计算机实现这一目标,推动了计算机科学的发展。
从古希腊神话中的塔罗斯,到中国古代和西方中世纪的自动化机械,再到图灵对“会思考的机器”的设想,人类关于智能机器的梦想跨越了文化与时代。这些梦想的种子为现代人工智能的发展提供了灵感和方向,随着科学技术的进步,这些早期的构想也逐渐从神话故事走向现实。
3.机器智能的奠基石 : 计算机科学的诞生
人工智能的诞生离不开计算机科学的兴起,而计算机科学的发展则深深植根于20世纪中期的几次重大技术突破。该时期,第二次世界大战为计算机科学提供了现实需求和巨大的推动力。战时的众多技术创新直接推动了现代计算机的诞生,之后随着计算机架构的理论奠定和关键人物的卓越贡献,计算机科学在战后逐渐发展成为一门独立的学科。
第二次世界大战期间,计算机科学的早期发展与战争需求紧密相连。为了破解恩尼格玛(Enigma)密码,同盟国与轴心国之间展开了一场前所未有的技术竞赛,催生了世界上最早的电子计算机。艾伦·图灵是破解恩尼格玛密码的核心人物之一。他在布莱切利园(Bletchley Park)领导的团队开发了“炸弹机”(Bombe),如图1-2所示,这是一种专门用于破解恩尼格玛密码的电动机械设备。图灵的工作为计算理论和计算机设计奠定了基础,虽然“炸弹机”并不是真正的通用计算机,但它展示了机器在复杂数据处理中的巨大潜力。与此同时,在美国,霍华德·艾肯(Howard Aiken)领导的团队在哈佛大学开发了“马克一号”(MarkⅠ),这是另一台早期的电动计算机,能够执行简单的算术运算。这些早期的计算设备展现了计算机在解决实际问题中的巨大潜力,为战后计算机科学的蓬勃发展打下了基础。
图1-2 战后仿制的“炸弹机”
计算机技术迅速发展的标志性事件之一便是ENIAC(Electronic Numerical Integrator and Computer)的诞生。1943年,第二次世界大战的炮火尚未平息,当时美国陆军需要为军械试验提供及时准确的弹道火力表,迫切需要有一种高速的计算工具,为此专门设立了“弹道研究实验室”并开始大力资助电子计算机的设计和建造。1946年,ENIAC在美国宾夕法尼亚大学宣告诞生,它是由约翰·莫克利(John Mauchly)和普雷斯·埃克特(Presper Eckert)等科学家开发的全电子数字计算机,也是公认的世界上第一台通用计算机,如图1-3所示。它不仅能进行线性方程组的计算,还可编程,并采用了一些现代计算机的设计思想,如采用二进制、可重用的存储器等。ENIAC的出现标志着计算机技术从机械和电动设备向全电子计算的转变。ENIAC不仅在计算速度上远超前代计算设备,还具备通用性,能够通过编程解决不同的数学问题。虽然它的编程过程依然烦琐,需要手动调整数千个电线连接,但不可否认的是ENIAC为现代计算机的编程设计奠定了基础。它的成功展示了电子计算的巨大潜力,促使各国政府和科研机构加大了对计算机研究的投入。ENIAC的开发成功不仅代表着技术上的突破,也激发了人们对计算机研究前景的极大兴趣,推动了计算机技术的广泛应用,并为计算机科学的早期研究提供了必要的计算资源。
图1-3 ENIAC
在ENIAC成功的基础上,约翰·冯·诺依曼(John von Neumann)进一步提出了冯·诺依曼架构,这是一种用于计算机设计的架构模式,也是现代计算机的设计基础。冯·诺依曼架构的核心思想是将计算机的指令存储和数据存储统一在一个内存系统中,使得计算机能够根据存储的指令进行自动操作。冯·诺依曼架构的提出极大地简化了计算机的设计与操作过程,使得计算机能够更为灵活地处理各种任务,而不再过度依赖于对硬件的物理调整。该架构包括中央处理单元(CPU)、内存、输入/输出设备和存储器四个主要组件,并引入了“存储程序”的概念,即将程序像数据一样存储到计算机内部存储器中,这样计算机便可自动地从一条指令转到执行另一条指令。这一概念也成为现代计算机的基本设计原则。冯·诺依曼架构不仅奠定了计算机科学的基础,还对人工智能的研究产生了深远影响。通过这一架构,研究者们可以更加方便地实现复杂的算法和程序,推进了对AI的早期探索。符号主义学派的许多早期研究成果,如专家系统和逻辑推理程序的诞生,都得益于冯·诺依曼架构提供的计算能力。
随着计算机科学的进一步发展,关于计算机是否能够表现出“智能”的讨论也逐渐成为焦点。1950年,艾伦·图灵在他的论文《计算机器与智能》中提出了著名的“图灵测试”(Turing Test)。图灵测试旨在回答一个根本问题:机器能否思考?图灵测试的核心思想是,如果一台机器能够在对话中让人类无法分辨其与真人的区别,那么这台机器就可以被认为具备智能。这一测试标准不仅是对机器智能的探索,也是对人类智能本质的哲学思考。图灵通过这种方式回避了对“思考”本质的直接定义,转而重点关注智能的可观察行为。图灵测试在人工智能研究史上具有重要意义。它不仅为AI研究设定了一个目标,也激发了后续对智能定义的广泛讨论。尽管图灵测试本身曾一度受到了许多批评和挑战,但它现在依然是衡量机器智能的经典标准之一,并持续影响着人工智能的发展方向。
二战结束后,计算机科学继续迅猛发展,计算机的强大计算能力引发了科学家们对智能模拟的浓厚兴趣。人类能否创造出具有智能的机器?计算机能否像人类一样思考?这些问题逐渐从科学幻想走向具体的科学研究。1956年夏天,在美国新罕布什尔州的达特茅斯学院(如图1-4所示),一场被后世誉为“人工智能诞生里程碑”的会议在此召开。来自多个学科的顶尖科学家们齐聚一堂(如图1-5所示),讨论如何通过机器模拟人类的智能行为。这场会议上,“人工智能”这一术语被正式提出,也确立了AI作为一个独立学科的发展方向。
图1-4 达特茅斯学院
图1-5 达特茅斯会议主要参会者
1.会议筹备:麦卡锡的野心
随着ENIAC的成功和冯·诺依曼架构的确立,计算机在学术界的影响力迅速扩大,计算机科学成为一门独立学科,并吸引了大量数学家、物理学家和工程师的关注。在这一背景下,一些先驱者开始探索计算机在认知领域的应用。约翰·麦卡锡(John McCarthy)、马文·明斯基(Marvin Minsky)、克劳德·香农(Claude Shannon)和内森·罗切斯特(Nathaniel Rochester)等认识到,通过跨学科的合作,有可能在机器中实现某种形式的“智能”。于是,他们决定召集一次会议,集中探讨如何通过机器实现人类智能的目标。
达特茅斯会议的主要发起者是约翰·麦卡锡。麦卡锡是当时年轻有为的计算机科学家,他对数学逻辑和自动推理非常感兴趣。他相信,智能行为可以通过符号操作来实现,并且这种能力可以被编程到机器中。为了验证这一想法,麦卡锡希望召集一批顶尖学者,一起讨论如何通过计算机来模拟智能。麦卡锡在1955年提出了召开会议的建议,并与马文·明斯基、克劳德·香农和内森·罗切斯特合作,撰写了一份会议提案。在这份提案中,麦卡锡首次使用了“人工智能”(Artificial Intelligence)这一术语,并提出了一个宏大的愿景:“我们建议进行一项为期两个月的研究,基于一个假设,即在某种程度上,学习的每一个方面,或者其他任何形式的智能,都可以通过足够精确的描述来实现,从而可以使机器来模拟。”
为了确保会议的成功,麦卡锡和他的同事们邀请了当时在相关领域内最有影响力的科学家,包括赫伯特·西蒙(Herbert Simon)、艾伦·纽厄尔(Allen Newell)、诺伯特·维纳(Norbert Wiener)等人。这些学者在认知科学、计算机科学、数学和神经科学等领域都有深厚的研究背景,他们的参与也为会议带来了多样化的视角。
2.会议内容:定义“人工智能”
1956年夏天,达特茅斯学院迎来了这场为期两个月的会议。虽然最初设想的长时间讨论因实际情况而缩短,但会议的影响却超出了所有人的预期。在会议上,参与者们探讨了多种可能的智能模拟方法,包括自动推理、神经网络、博弈论、学习理论等。
会议期间,学者们进行了广泛的交流与讨论。麦卡锡提出了符号主义的基本思想,认为智能行为可以通过符号操作和逻辑推理来实现。他的观点得到了艾伦·纽厄尔和赫伯特·西蒙的支持,后者在会议上展示了他们开发的“逻辑理论家”(Logic Theorist),这是世界上第一个人工智能程序。“逻辑理论家”能够证明数学定理,展示了符号操作在模拟人类推理过程中的潜力。马文·明斯基则讨论了神经网络模型,重点阐述了如何通过模拟人脑神经元的连接来实现学习和智能。尽管这一想法在当时尚未得到认可和广泛应用,但它为后来的联结主义和深度学习奠定了理论基础。会议的讨论还涉及机器学习和博弈论等主题,尽管这些领域在当时尚处于起步阶段,但参会者们对未来的研究方向提出了许多富有远见的设想。虽然最终与会者们在达特茅斯会议上没有达成共识,但他们的许多观点深远地影响了人工智能未来的发展,此次会议也为后续人工智能的研究提供了一个明确的框架和方向。
达特茅斯会议的最大成果是确立了“人工智能”作为一个独立学科的地位。这场会议不仅提出了“人工智能”这一术语,还为AI研究设定了基本框架和方向。通过集结多学科的顶尖学者,会议推动了符号主义、神经网络和机器学习等研究领域的早期发展,为人工智能的崛起奠定了基础。会议结束后,参与者们回到各自的研究机构,继续探索通过机器实现智能的可能性。他们丰硕的研究成果也逐渐推动了人工智能领域的蓬勃发展。
此次会议的影响在接下来的几十年中逐渐显现出来。达特茅斯会议将各个方向的研究者聚集在一起,促使他们在未来的研究中不断交流与合作,共同推动了AI技术的进步。从达特茅斯会议开始,人工智能逐渐从一种学术方向的讨论转变为科学研究的前沿领域。会议所提出的愿景和问题,至今仍然引领着人工智能研究的前进方向。
1956年的达特茅斯会议标志着人工智能作为一个独立学科的诞生。20世纪50年代末到70年代初,人工智能(AI)的研究经历了一个黄金时代。在此期间,学术界和研究机构对人工智能充满了乐观预测和积极探索,AI研究领域涌现出了许多杰出的成果。虽然此时人们对于AI的未来充满期待,但随着技术瓶颈的出现,人工智能领域也迎来了历史上的第一次低谷期,这段时期也被称为“AI的寒冬”。
1.早期AI程序的诞生
在AI早期发展的黄金时期,研究者们对AI的潜力充满了信心,他们认为通过构建复杂的算法和符号系统,计算机将能够模仿人类的推理和决策过程,众多研究成果也是基于这一构想变成了现实。其中最引人注目的是“逻辑理论家”的诞生,这是首个可以自动进行推理的程序,旨在模仿人类在逻辑推理中的思维过程,该程序能够进行数学定理的证明,被誉为“世界上第一个AI程序”。这一成果表明计算机不仅能够执行简单的计算,还能够处理复杂的逻辑问题。开发“逻辑理论家”过程中提出的一些重要概念也对人工智能研究产生了深远影响。例如开发并使用的信息处理语言(Information Processing Language,IPL)是历史上第一个用于人工智能的程序语言,它不仅使得在计算机上实现逻辑理论成为可能,还能够支持通过启发式搜索方法来寻找定理证明的路径。
通用问题解答器(General Problem Solver,GPS)也是早期的人工智能程序之一,是继“逻辑理论家”之后的又一重要AI项目。这是由赫伯特·西蒙、约翰·克里夫·肖和艾伦·纽厄尔基于IPL语言编写的计算机程序,旨在作为解决通用问题的机器,他们的目标是开发一种能够解决各种不同类型问题的通用系统,而不是只针对某一特定问题或领域。GPS的独特之处在于将“做什么”和“怎么做”分开处理。“做什么”是指具体问题的规则和目标,作为数据输入程序中;“怎么做”是指解决问题的通用方法,也是程序的核心。这种设计让GPS能够尝试解决各种不同类型的问题,而不需要为每个新问题重新编写程序,充分展示了计算机对于通用问题求解的可能性。
2.社会各界的大力支持
随着AI研究的逐步深入,大学和研究机构成为推动该领域发展的主要力量,美国、日本等国家的研究机构和大学在AI领域进行了广泛的探索。这主要得益于二战后科技研究整体蓬勃发展的环境,以及在冷战背景下科技竞争的推动。这一时期,计算机和人工智能的相关研究得到了各国政府机构的大力支持。
20世纪60年代末至70年代初,人工智能研究迎来了突破性的进展,在美国出现了多个开创性项目。其中最具代表性的是斯坦福研究所(SRI)开发的SHAKEY机器人,如图1-6所示。作为第一个能够自主感知环境、制订计划并采取行动的移动机器人,SHAKEY开创了将感知、规划和行动结合在一起的先河。它配备了用于环境感知的电视摄像头,使用先进的导航系统进行路径规划和障碍物避让,并运用STRIPS人工智能规划系统执行任务。尽管在今天看来SHAKEY显得相当原始,但它能在简单环境中自主导航,执行如推动和堆叠物体等基本任务,甚至理解并执行简单指令,是人工智能技术在物理世界中首次成功应用的标志性事件。
图1-6 SHAKEY机器人
与此同时,斯坦福大学的特里·温诺格拉德(Terry Winograd)开发出SHRDLU程序,在自然语言处理领域取得重大突破。SHRDLU能在虚拟积木世界中理解和执行自然语言指令,展示了计算机处理自然语言的潜力。它使用复杂的语法规则和语义理解来解析用户输入,维护内部世界模型,并能回答关于环境状态的问题,展现了基本的推理能力。虽然SHRDLU只能在特定领域内操作,但它首次展示了计算机理解上下文和执行复杂指令的能力,引发了研究人员对自然语言处理(Natural Language Processing,NLP)的广泛兴趣,也是NLP发展史上的重要里程碑。
人工智能取得这些早期突破,离不开政府机构等部门的大力支持。早在1963年,美国国防高级研究计划局(DARPA)为麻省理工学院(MIT)的MAC项目(数学与计算项目)提供了数百万美元的资金支持。该项目涵盖了机器学习、自然语言处理等多个方向,开发了MACSYMA等重要的符号数学系统。
随着时间的推移,人工智能研究的重心也逐渐从美国扩展到其他国家。1982年,日本政府启动了“第五代计算机项目”,旨在开发能进行推理、理解自然语言、识别图像的新一代计算机。日本经济产业省为此投入了约850亿日元(当时相当于5.4亿美元),重点发展基于Prolog语言的并行计算和逻辑推理技术。尽管这个为期十年的项目最终未能完全实现其宏伟目标,但它推动了并行计算和逻辑编程的发展,更重要的是,它促使其他国家加大了对人工智能的投资力度。
受到日本项目的影响,美国政府和企业在20世纪80年代再次在人工智能领域投入巨资,规模达到数十亿美元。这轮新的投资涵盖了政府资助的项目和私营企业的研发,目的是保持美国在AI领域的领先地位。这一时期的大规模投资为后续AI技术的飞速发展奠定了基础,推动了计算机视觉、自然语言处理、专家系统等多个AI子领域的进步。
3.寒冬来临:AI的第一次低谷
在黄金年代,许多研究者和科技领袖对人工智能的未来做出了极其乐观的预测。他们相信,在不久的将来,AI将能够完成许多过去只能由人类完成的任务,甚至可能会超越人类的智能水平。例如,马文·明斯基曾在1970年表示:“在三到八年内,我们将拥有一台通用的智能机器,它能够做我们任何人能做的事情。”这些乐观的预测不仅来自AI研究的内部,还受到了媒体和公众的广泛关注。媒体对AI的报道充满了未来主义的色彩,将AI描绘成解决社会问题、提升生活质量的万能工具。这种氛围进一步激发了社会对AI的期待,许多人相信,未来的生活将会被智能机器彻底改变。但这一繁荣时期并没有持续太久。技术瓶颈的出现和现实需求的挑战使得AI研究逐渐陷入困境,人工智能的第一次黄金时代也走向了终点。
在AI的繁荣时期,AI似乎正在快速接近人类智能的水平,人们认为AI的未来一片光明,但现实情况远不如预期。首先,当时的计算机处理速度并不足以解决现实世界中大多数实际问题,硬件上的瓶颈开始出现。随着时间的推移,20世纪70年代末至80年代中期,技术上的瓶颈也逐渐显现,首当其冲是符号主义的主导地位遭遇了重大挑战。符号主义学派认为,智能可以通过操纵符号和规则系统来实现,这一观点在早期AI研究中占据主流。然而,随着研究的深入,符号主义的局限性逐渐暴露,许多复杂的现实问题无法通过简单的规则和符号操作来解决。尤其是面对开放性和不确定性较高的问题时,符号系统往往显得很无力,无法应对复杂多变的现实情况。此外,符号系统在处理自然语言、视觉感知和逻辑推理等领域的表现也未能达到预期的效果。例如,专家系统虽然在某些特定领域取得了成功,但不可忽视的是其在知识表达等方面仍存在巨大挑战,获取知识的过程非常困难且耗时。这些系统依赖于领域专家提供的规则和知识,而这些知识往往是片面的、难以更新和扩展的。而且专家系统存在符号主义的通病,在处理模糊和不确定性信息时表现不佳,难以应对现实世界中复杂的、动态变化的环境。
雪上加霜的是,随着技术瓶颈的暴露,AI领域的乐观情绪逐渐消退。政府和企业开始重新审视对AI项目的投资,越来越多的项目因未能实现预期目标而遭到质疑。尤其是在经济环境不稳定的情况下,政府和企业都不再愿意冒险继续向AI领域投入巨额资金。人工智能研究此时不仅遭遇了严重的技术瓶颈,还需要面对资金削减和研究停滞的情况,曾经充满希望的领域陷入了深深的困境,变得举步维艰。
DARPA是20世纪60年代至70年代初期AI研究的主要资助者之一。然而,在经历了数年的大量投资后,DARPA对AI研究的态度发生了转变。由于AI项目未能产生预期的军事应用成果,DARPA逐渐削减了对AI研究的资金支持。这一举措直接造成众多AI项目的停滞和中断,研究人员也不得不转向其他领域寻找研究机会。同时,企业界也开始对AI失去信心。许多曾经积极参与AI研究的公司发现,AI技术在商业应用中的表现并不理想,难以带来显著的经济效益。这种情况下,企业纷纷减少对AI项目的投资,甚至放弃相关研究,这进一步加剧了AI领域的资金短缺问题。资金削减带来的直接后果是研究停滞,许多原本充满希望的项目因资金不足而被迫中止。由于资金和研究兴趣都大幅降低,研究人员也逐渐流失到其他领域,学术界对AI的热情也大幅下降,AI研究在很长一段时间内处于低迷状态。这种低迷情绪的蔓延不仅影响了AI技术的发展,也使得公众对AI的信任度和期待度大幅降低。
4.专家系统:曙光与局限
在AI寒冬期间,专家系统成为为数不多的亮点之一,它是人工智能的一个重要分支。它是指一类计算机智能程序系统,这些系统将领域专家的知识编码为规则,能够在特定领域执行复杂的推理和决策任务。在某些领域,例如化学分析和医疗诊断中,专家系统取得了一定的成功。DENDRAL是早期专家系统的一个典型代表,它能够根据质量谱数据推断化学分子的结构。这一成功案例展示了AI专家系统在特定领域的应用潜力,也为其进一步发展起到了示范作用。
然而,DENDRAL的成功并不能掩盖专家系统的普遍问题。首先,专家系统的开发高度依赖领域专家的知识,这一过程也被称为“知识获取”(Knowledge Acquisition)。然而,现实中这一过程往往非常困难且耗时,专家的知识也并非总能被完整地、准确地转化为系统的规则。此外,专家系统的知识库通常是静态的,难以应对环境的变化和知识的更新。面对新的问题或知识时,专家系统往往需要进行大量的手工调整,需要高昂的人力成本。其次,专家系统在处理不确定性和模糊信息时表现不佳。它们依赖于明确的规则和逻辑推理,无法处理超出其领域范围的问题,而现实世界中的许多问题往往是复杂且不确定的。例如,在医疗诊断中,患者的症状可能是多种疾病的表现,而专家系统难以在缺乏明确数据的情况下做出准确判断。这使得专家系统的应用范围受到了很大的限制,难以扩展到更为广泛的领域。这些因素大大降低了它的灵活性和实用性。
尽管专家系统在特定领域取得了一定的成功,但它们并未带来AI领域的整体复苏。相反,专家系统的局限性进一步暴露了AI技术的不足,加剧了人们对AI技术发展的担忧。在AI寒冬的背景下,专家系统的成功显得微不足道,难以改变整个领域的低迷局面。
尽管第一次AI寒冬重创了整个领域,但这段低谷期也为人工智能的未来发展提供了宝贵的经验教训,促进了AI领域的反思和转型,为后来的突破和复兴铺平了道路。研究人员认识到,单纯依赖符号主义和专家系统无法解决AI领域的所有问题,需要寻找新的方法和思路。
这一时期的反思促使研究人员开始关注其他可能的路径,如联结主义(Connectionism)和机器学习(Machine Learning)。这些新兴的方法和思路更加强调数据驱动和学习机制,使AI技术逐渐摆脱了符号系统的局限,为日后人工智能的复兴奠定了基础。同时,随着计算机硬件技术的进步,计算能力不断提升,以及互联网技术的兴起也为AI的发展带来了丰富的计算和数据资源,为AI研究提供了新的动力,使得数据驱动的AI技术成为可能。
1.计算能力的提升与数据时代的到来
20世纪80年代末至90年代,计算机硬件技术取得了显著进步。摩尔定律的持续作用使得计算能力以指数级增长,存储器和处理器的性能不断提高,成本却逐渐降低。这在算力层面为AI的进一步发展提供了强有力的支持。与此同时,个人计算机(PC)的普及也大大推动了计算机相关的研究和应用。与之前昂贵的主机和专用工作站相比,PC的普及使得更多的研究人员和开发者能够更方便地接触到计算资源,开展AI相关的实验和开发工作。这一时期,PC的广泛使用还促进了计算机科学教育的普及,培养并吸引了更多人才进入AI领域,为人工智能的复兴奠定了人才基础。计算能力的提升不仅改善了AI算法的运行效率,还使得原本在理论上可行但因计算资源限制而难以实现的方法成为可能。例如,神经网络的训练在早期因计算能力不足而进展缓慢且效果不佳,但随着硬件性能的提升,尤其是图形处理器(GPU)的出现,深度神经网络的训练速度得到了大幅提高,这也为日后深度学习的高速发展奠定了基础。
20世纪90年代初,互联网的迅速发展为AI研究带来了新的契机。互联网不仅改变了人们获取和处理信息的方式,也带来了海量的数据资源。这些数据资源为AI,尤其是机器学习的发展提供了丰富的“燃料”。数据被称为“新时代的石油”,它在AI系统中起到了至关重要的作用。互联网的普及使得数据的收集、存储和处理变得更加方便和高效,研究人员可以通过互联网获得大量的训练数据,从而开发更为精准和有效的模型。另外,互联网还促进了学术界和工业界之间的交流与合作。研究者们可以通过在线平台分享成果、讨论问题,推动技术的快速迭代。随着开放源代码项目的兴起,机器学习框架等AI工具和资源的访问和利用变得更加便捷,从而进一步推动了AI技术的普及和发展。
2.统计方法与神经网络的兴起
在经历了AI的第一次寒冬之后,研究者们逐渐意识到,传统的符号主义方法在处理现实世界中的复杂问题时存在显著的局限性。与其试图通过手工编写规则来模拟智能行为,不如让计算机通过数据学习来发现模式和规律。于是,以机器学习为代表的统计方法逐渐成为AI研究的主流。
机器学习是对能通过经验自动改进的计算机算法的研究,强调数据驱动的学习过程,使机器从大量数据中提取特征、识别模式,并基于这些模式进行预测和决策。相比于符号主义,机器学习的方法更加灵活,能够处理大量复杂、多样的数据。这一方法的成功在自然语言处理、计算机视觉和语音识别等众多领域得到了验证。一种重要的机器学习方法——支持向量机(Support Vector Machine,SVM)得到了广泛应用。SVM通过寻找数据点之间的最佳分割平面,实现了高效的分类任务,成为当时最为先进的学习算法之一。此外,贝叶斯网络(Bayesian Network)等概率模型方法也在这个时期得到了发展,为应对不确定性和噪声数据提供了有效手段,其影响一直延续至今。这些新的方法突破了AI发展遇到的技术瓶颈,使得AI能够在更广泛的实际应用中取得成功。与符号主义不同,机器学习等统计方法强调自适应性和泛化能力,这使得AI模型能够在面对复杂、多变的现实环境时表现得更加稳定。
在AI复兴的过程中,神经网络也经历了从低谷到再度兴起的过程。早期的神经网络研究因技术限制和计算能力不足成果寥寥,在第一次AI寒冬中几近被弃。然而,随着计算能力的提升和新的训练方法的提出,神经网络在20世纪90年代末开始重新引起研究者们的关注。一个关键的突破是反向传播算法(Backpropagation)的推广。尽管这一算法在20世纪70年代已经被提出,随着计算能力的提高和神经网络模型的改进,直到20世纪80年代末和90年代初,反向传播算法才得以广泛应用。它解决了多层神经网络中的权重和偏置参数的优化问题,使得训练深度神经网络成为可能。这一时期,神经网络逐渐在多个领域展现出其潜力,尤其是在模式识别和数据挖掘中取得了显著成果。例如,在手写数字识别领域,神经网络的表现超过了许多传统方法,展示了其强大的特征提取和表示能力。尽管神经网络在20世纪90年代的复兴与今天深度学习的影响力不可同日而语,但它为后者的突破奠定了重要基础。研究者们逐渐认识到,随着网络深度的增加和计算能力的增强,神经网络有潜力处理更为复杂和多样化的问题,这为21世纪初深度学习的爆发埋下了伏笔。
3.商业化应用的推动与投资的回归
新兴AI技术崭露头角并取得突破,商业界也开始重新审视AI的潜力。20世纪90年代末到21世纪初,一些成功的AI应用案例引起了社会各界的广泛关注,商业界对AI的投资开始回归。这一时期,AI在搜索引擎、推荐系统、金融交易、医疗诊断等领域的应用逐渐增多,其蕴含的巨大经济价值开始显现。
互联网巨头公司,如谷歌、亚马逊和微软,也纷纷开始大力投资AI研究和开发,推动AI技术的商业化应用。这些公司利用AI技术来改进搜索算法,进行个性化推荐、广告投放等业务,显著提高了用户体验和商业收益。这些成功案例进一步增强了业界对AI技术的信心,吸引了大量资金和人才重新投入到AI领域。此外,随着诸多互联网巨头的崛起,风险投资(Venture Capital)也开始重新关注AI领域,大量的初创企业也在这一时期涌现,致力于将AI技术应用于各种新兴领域。这些投资和创新活动进一步推动了AI技术在复兴时期的快速发展和普及,提高了AI的影响力。
4.一场惊心动魄的对决 : 深蓝VS卡斯帕罗夫
国际象棋一直被视为考验人类智力的游戏。面对复杂的棋局,选手们不仅要思考战术和策略,还需要保持高度的专注和强大的心理素质。1996—1997年,随着人工智能重新引起人们的广泛关注,一场象征着人类智能与机器智能的巅峰对决也在全球范围内赚足眼球,如图1-7所示。这场对决的双方分别是国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov)和IBM公司开发的超级计算机“深蓝”(Deep Blue)。这不仅是一场棋艺的比拼,更是一场关于智能与未来的讨论,深刻且长远地影响了人们对于人工智能的认识。
加里·卡斯帕罗夫被誉为人类历史上最伟大的国际象棋选手之一,他自1985年成为世界冠军以来,连续保持了15年的冠军头衔,几乎战无不胜。在许多人眼中,他是不可战胜的天才,代表着人类国际象棋水平的顶峰。20世纪90年代,随着计算机技术的迅猛发展,AI在国际象棋领域的进步也引起了人们的关注。IBM公司开发的“深蓝”是当时最强大的计算机之一,专门为国际象棋比赛设计,能够在短时间内分析并评估数百万种可能的棋局变化。对于“深蓝”来说,这场比赛不仅仅是一次挑战世界冠军的机会,更是向世界展示AI在战略性复杂问题上潜力的舞台。
图1-7 卡斯帕罗夫与“深蓝”的对决
1996年2月,卡斯帕罗夫与“深蓝”进行了首次对决。这场比赛引起了全球的关注,许多人期待看到人类智能与机器计算能力之间能够碰撞出怎样的火花。在这场为期六局的比赛中,卡斯帕罗夫最终以4胜2负的成绩击败了“深蓝”,证明了人类智能在复杂策略游戏中仍然占据优势。然而,比赛的过程并非一帆风顺。在第二局中,“深蓝”意外地击败了卡斯帕罗夫,这一结果震惊了世界。对于卡斯帕罗夫来说,这一局的失败不仅出乎他的意料,更让他意识到机器的潜力远比他想象的要强大。这次失败激发了他更加深入地研究“深蓝”的计算模式和弱点,并在接下来的比赛中连胜三局,最终获得了胜利。尽管卡斯帕罗夫赢得了比赛,但“深蓝”在某些对局中的表现让人们看到了AI在国际象棋领域的巨大潜力。IBM团队在比赛结束后并未停滞不前,而是继续改进“深蓝”的算法和计算能力,为下一次的挑战精心准备。
1997年5月,卡斯帕罗夫与“深蓝”再次交手,这场比赛也被誉为“世纪之战”,吸引了全球媒体的关注。这一次,“深蓝”经过全面升级,不仅拥有更强大的计算能力,还改进了棋局评估算法,使其在棋盘上的决策更加精准。比赛的第一局中,卡斯帕罗夫再次展现了他作为人类顶尖棋手的智慧和策略,以强势的表现战胜了“深蓝”。这一局的胜利令他和他的支持者们充满信心,认为这次对决将再次以人类的胜利而告终。然而,第二局却成为这场对决的转折点。这局比赛中,“深蓝”表现出了一种近乎人类般的耐心和冷静,出人意料地采取了一步充满策略性的“等待”之举,这在AI的常规操作中极为罕见。卡斯帕罗夫对此感到困惑,甚至怀疑对手是否受到了人类操控。最终,他在心理压力下犯了错误,输掉了这局比赛,这一失利极大地动摇了卡斯帕罗夫的信心。接下来的几局比赛中,卡斯帕罗夫显得愈发紧张和焦虑,表现出了前所未有的不稳定。而“深蓝”则继续冷静而高效地执行着计算,仿佛在逐步瓦解这位象棋王者的心理防线。最终,在第六局决战中,卡斯帕罗夫因一个战术失误而提前认输,“深蓝”以3.5比2.5的总比分战胜了卡斯帕罗夫,成为历史上首个战胜国际象棋世界冠军的计算机。
“深蓝”战胜卡斯帕罗夫的消息迅速传遍全球,掀起了轩然大波。对于支持AI发展的科技界人士来说,这场胜利是人工智能技术发展的重要里程碑,标志着机器在解决复杂问题时能够与人类竞争,甚至超越人类。IBM借此机会展示了其在计算技术和AI领域的领先地位,并获得了巨大的声誉和商业利益。然而,这场胜利也引发了广泛的质疑和讨论。许多人认为,“深蓝”的胜利并不能完全归功于AI本身,因为它的优势主要来源于强大的计算能力,而非真正的“智慧”。此外,卡斯帕罗夫及其支持者对比赛的公平性提出了质疑,认为“深蓝”可能在某些决策上得到了人类专家的帮助。尽管IBM团队坚决否认这一指控,但这些质疑仍然在公众中引发了对AI能力的深入讨论与猜测。卡斯帕罗夫本人在比赛后的反应复杂而矛盾。他在承认“深蓝”强大计算能力的同时,也对比赛过程中的一些细节表示不满,认为自己未能在心理压力下发挥出最佳水平。多年后,卡斯帕罗夫在回忆这场比赛时,仍然认为这次失败更像是人类心态不稳定造成的失误,而非机器真正的智力胜利。
尽管围绕“深蓝”胜利的争议持续存在,但不可否认的是,这场对决是AI发展史上的又一重要里程碑。它展示了机器在特定任务中,尤其是在结构明确、规则清晰的领域,可能具有超越人类的潜力。这一胜利使得公众对AI的认识发生了深刻变化,人们开始认真思考AI在未来社会中的角色和影响。“深蓝”与卡斯帕罗夫的对决同样引发了关于AI伦理、AI与人类合作关系的广泛讨论。这场胜利让人们意识到,AI技术的进步可能会对许多行业产生深远影响,卡斯帕罗夫与“深蓝”之间的较量,或许只是人类与机器智能共存之路的开端。
在20世纪末到21世纪初,随着互联网的普及和计算能力的提升,海量的数据开始涌现。数据作为“新时代的石油”,是推动机器学习方法前进的核心动力。传统的机器学习方法,如支持向量机、决策树和贝叶斯网络等,在这一时期得到了广泛应用,并在许多领域取得了成功。然而,随着数据规模的不断扩大和问题复杂性的增加,传统的机器学习方法开始显现出一些局限性。
这些方法在处理高维度数据、复杂模式识别任务时,往往需要人工进行特征工程,即由专家手动提取特征并设计算法模型。这种方式不仅耗时耗力,而且可靠性不佳,在复杂场景中容易失效。正是在这样的背景下,深度学习作为一种自动化特征提取和模式识别的革命性方法,逐渐崭露头角。
1.从数据驱动到深度学习:范式的转变
深度学习的核心是人工神经网络,尤其是多层的深度神经网络,如图1-8所示。尽管神经网络的概念早在20世纪中期就已被提出,但直到21世纪初,随着计算能力的提升和反向传播算法的完善,深度神经网络才真正开始发挥其潜力。深度学习的优势点在于它能够通过大量数据自动学习和提取特征,极大地减少了该过程对人工干预的依赖。
图1-8 深度神经网络
2006年,杰弗里·辛顿(Geoffrey Hinton)及其团队提出了深度信念网络(Deep Belief Network)的概念,通过引入无监督预训练技术和分层结构的思想,成功地解决了深度神经网络训练难的问题,为深度学习的复兴打下了基础。随后,随着卷积神经网络(Convolutional Neural Network,CNN)和递归神经网络(Recurrent Neural Network,RNN)的出现和发展,深度学习逐渐在图像识别、语音识别、自然语言处理等领域占据了一席之地。
2012年是深度学习史上具有里程碑意义的一年。在这一年,辛顿的学生亚历克斯·克里泽夫斯基(Alex Krizhevsky)在ImageNet图像识别挑战赛中,利用卷积神经网络设计的模型AlexNet取得了压倒性的胜利。这一事件被广泛认为是深度学习全面爆发的起点,描述AlexNet的论文“ImageNet Classification with Deep Convolution Neural Networks”也被认为是计算机视觉领域最有影响力的论文之一,启发了更多使用卷积神经网络和GPU来加速深度学习的研究工作的出现。AlexNet在图像识别准确率上远超其他方法,展示了深度学习在处理复杂视觉任务中的巨大潜力。随着AlexNet的名声大噪,深度学习也迅速吸引了全球学术界和工业界的关注。谷歌、Facebook(现更名为Meta)、微软等科技巨头迅速投入资源,将深度学习技术应用于搜索引擎、推荐系统、广告投放、自动驾驶等关键领域。
深度学习的优势在于其强大的自动化特征提取能力和非线性表达能力,这使得它在应对大规模数据和复杂任务时表现优异。例如,在语音识别领域,深度学习技术推动了语音助手(如Siri、Google Assistant)的语音识别精确度提升;在自然语言处理领域,深度学习算法支撑了自动翻译、文本生成和情感分析等复杂任务的实现。此外,递归神经网络及其变体,如长短期记忆网络(Long Short-Term Memory,LSTM),在处理序列数据方面表现出色,广泛应用于语音识别、语言建模和时间序列预测等任务。这些技术的突破不仅巩固了深度学习在学术界的地位,还推动了AI应用在工业界的广泛应用。
深度学习的崛起离不开大数据时代的到来。互联网的发展和手机等智能设备的广泛使用,使得全社会的数据量迎来了爆炸式增长,这为深度学习提供了丰富的训练数据,使得AI模型能够在更为复杂和多样化的场景中进行优化和应用。与此同时,计算资源的革命性进展,特别是图形处理器(GPU)的应用,使得训练深度神经网络成为可能。与传统的中央处理器(CPU)相比,GPU在处理并行计算任务时具有显著优势,这极大地加速了深度学习模型的训练过程。GPU的广泛应用,尤其是在深度学习框架(如TensorFlow、PyTorch)的推动下,研究人员和开发者能够更加高效地构建和优化复杂的深度学习模型。此外,云计算的兴起也为深度学习的发展提供了一定程度的帮助。通过云计算平台,研究者可以利用分布式计算资源进行大规模数据处理和模型训练,大大降低了硬件成本和时间成本。
2.现代AI工具的普及与应用的爆炸式增长
随着深度学习技术的不断成熟,为了简化AI模型的开发和部署过程,业界也开发了各种高效的机器学习框架和工具。这些框架的出现,大大降低了机器学习的门槛,使得更多的开发者和初创企业能够参与到人工智能的浪潮中来。
2015年,谷歌发布了TensorFlow,它是一个开源的机器学习框架,迅速成为全球最受欢迎的深度学习工具之一。TensorFlow支持广泛的应用场景,从实验研究到生产部署,极大地促进了深度学习技术的普及。同年,Facebook推出了PyTorch,它是一个专注于灵活性和动态计算的深度学习框架,也迅速在研究界和工业界获得了广泛使用,并赢得了广泛赞誉,时至今日仍然是深度学习领域最重要的开发工具之一。这些现代AI框架不仅提供了强大的功能,还简化了深度学习模型的开发、训练和部署流程,使得机器学习成为众多行业中的标配技术,推动了各行各业行业的变革与创新。
随着深度学习的崛起,AI技术开始在各个行业中展现出强大的应用潜力,AI不再是一个遥远的梦想,而已逐渐融入现实。AI技术在自动驾驶、医疗影像分析、智能客服、金融风控、智能推荐系统等领域的应用实例层出不穷,AI技术也逐渐渗透到人们的日常生活和工作中,不仅是人们日常生活中不可或缺的一部分,也成为推动社会进步和行业变革的关键力量。
在自动驾驶领域,以特斯拉为代表的企业通过使用深度学习算法,显著提高了自动驾驶系统的感知和决策能力,使得全自动驾驶技术逐渐成为现实。在医疗领域,深度学习常被用于分析医学影像,帮助医生进行早期癌症筛查、疾病诊断和治疗方案优化,大大提升了医疗效率和诊断的准确性。金融领域也因AI技术的引入而发生了深刻的变革,通过机器学习算法,银行和金融机构能够更精准地进行信用评估、风险预测和投资决策,这不仅提升了金融服务的效率,还降低了风险管理的成本。此外,电商、社交媒体和内容平台广泛使用的推荐系统,得益于深度学习技术的进步,也使得用户体验和商业收益显著提升。个性化推荐也慢慢成为现代数字生活中不可或缺的一部分。
3.震撼世界的棋局:AlphaGo VS李世石、柯洁
围棋被认为是最复杂的棋类游戏之一,其变化之多、策略之复杂远远超过国际象棋。对于人工智能来说,围棋也一直被视为人类智能的最后一道堡垒。与国际象棋不同,围棋的棋盘更大,棋局中产生可能的变化数量远远超过了传统方法的可计算范围,这使得传统的计算机搜索算法难以应对。
2016年和2017年,围棋界迎来了前所未有的震动——Google DeepMind开发的人工智能程序AlphaGo分别挑战了围棋界两位顶尖棋手——韩国的李世石和中国的柯洁,如图1-9所示。这两场棋局不仅在围棋界引发了巨大轰动,更在全球范围内掀起了一场关于人工智能的深刻讨论。这也是继“深蓝”挑战卡斯帕罗夫之后人类智能与机器智能的又一次正面对决。
在AlphaGo出现之前,尽管有许多尝试,但计算机在围棋领域始终无法与顶级人类棋手抗衡。然而,2014年Google收购的DeepMind团队开始开发AlphaGo,利用深度学习和蒙特卡罗树搜索相结合的方法,使得这一局面发生了根本性的变化,将胜利的天平拨向了计算机的一边。
图1-9 AlphaGo战胜李世石和柯洁
(1)AlphaGo VS李世石
2016年3月,AlphaGo挑战世界围棋冠军、九段棋手李世石的消息一经发布,便引起了全球的关注。这场比赛被视为人类智能与人工智能的又一次巅峰对决,许多人都在猜测,在围棋这项最为复杂的棋类游戏中,机器能否真正超越人类的智能水平。
第一局棋充满悬念,因为谁都不知道AlphaGo的棋技究竟达到了什么水平,然而结果让人吃惊,AlphaGo竟然在开局不利的情况下赢得了第一局,成为历史上第一个在正式围棋比赛中战胜顶尖人类棋手的AI。在比赛的第一局中,李世石从一开始就采取了积极的策略,试图通过复杂的局面考验AlphaGo的应对能力。然而,AlphaGo表现得极为冷静,在面对李世石的一系列进攻时,不慌不忙地选择了应对之策。开局阶段取得优势后,李世石的心态似乎发生了变化,接连出现几个失误,让此前的优势消失殆尽。最终双方在较量了3.5小时后,李世石投子认负。李世石在赛后也表达了自己的惊讶:“AlphaGo在开局阶段其实下得非常好,而且比赛过程中不断有一些令我意想不到的下法。”
在第二局比赛中,李世石继续采取了进攻策略,试图掌控局面,双方局势也各有好坏。然而,AlphaGo展现出的亮点、罕见的手法确实令人惊讶,尤其是在中盘时下出了一步令直播解说的各路职业高手都大跌眼镜的“神之一手”(第37手)。这步棋也出乎李世石的预料,他思考了很久。这步棋虽然看似不合常理,但却从长远布局上奠定了胜利的基础。赛后,许多围棋高手复盘分析认为,这步棋展现出了极高的围棋智慧,甚至超越了人类在围棋中的常规思维模式。这一手落子不仅震惊了李世石,也震撼了全球围棋界的各路高手。最终,AlphaGo在第二局再次获胜。
在第三局比赛中,李世石依然未能扭转局势,AlphaGo继续展现出强大的计算和判断能力,稳步控制着整个棋局的进展。这一局的胜利,标志着AlphaGo已经在五局比赛中取得了三场胜利,从而提前锁定了整场对决的胜利。AI战胜人类的事实已无可辩驳,AlphaGo的表现也彻底颠覆了人们对围棋以及人工智能的理解。
在第四局比赛中,面对已被AI击败的压力,李世石选择了放手一搏。他在中盘时下出了一步精彩的反击(第78手),这步棋成功打乱了AlphaGo的计算节奏,最终导致了AlphaGo的失败。这是AlphaGo在整场对决中唯一的一次失误,也是人类在这场对决中唯一的一次胜利。
在第五局比赛中,AlphaGo吸取了上一局失利的教训,调整了策略,步步为营,最终以稳健的表现赢得了比赛。这场对决的最终比分是4比1,AlphaGo以绝对的优势赢得了整场比赛。这一结果震撼了全球,标志着AI在围棋领域已经拥有了超越人类顶尖选手的水平。
(2)AlphaGo VS柯洁
在战胜李世石后,AlphaGo继续改进和进化,DeepMind团队对其进行了更大规模的训练和升级,以进一步提升其棋艺,迎接接下来的对决。2017年,AlphaGo迎来了另一位强劲对手——当时被公认为是世界上最强大的围棋选手,中国的天才棋手柯洁。
在2017年的对决中,柯洁与AlphaGo进行了三局比赛。在第一局比赛中,柯洁展现出了极高的棋艺,面对AlphaGo的步步紧逼,他冷静应对,巧妙布局。然而,随着比赛进入中后盘,AlphaGo凭借其强大的计算能力和精准的判断,逐渐在棋局中占据上风。尽管柯洁在比赛中表现得极为顽强,但最终还是无法阻止AlphaGo的胜利。赛后,柯洁在采访中表示,AlphaGo的表现远超他的预期,令他感到了极大的震撼。
在第二局比赛中,柯洁尝试改变策略,以更加激进的方式挑战AlphaGo。然而,AlphaGo在这局比赛中表现得极为稳健,几乎没有给柯洁任何机会。柯洁几次尝试通过复杂的变化打乱AlphaGo的计算节奏,但AI的冷静和精准让这些努力都未能奏效。最终,AlphaGo再次获胜,继续保持了不败的战绩。
第三局比赛成为柯洁与AlphaGo对决的最后一局。在这场比赛中,柯洁全力以赴,展现了他作为顶尖棋手的全部智慧和技巧。然而,AlphaGo的强大在比赛中展露无遗,它几乎没有给柯洁留下任何破绽,这场比赛以AlphaGo的完胜告终。面对AI的强大实力,柯洁在赛后感叹道:“我从未想过AlphaGo会如此强大。”
(3)AI超越人类的震撼与反思
AlphaGo战胜李世石和柯洁是人工智能研究的又一项标志性事件。AI战胜人类的消息震撼了全世界,标志着人工智能取得了重大突破,在围棋这一极具挑战性的领域达到了新的高度。对于科技界来说,AlphaGo的胜利展示了深度学习、强化学习和蒙特卡罗树搜索等技术的强大威力,极大地推动了相关AI研究的发展。AlphaGo的胜利证明了AI在复杂决策任务中超越人类的潜力,也激励了全球范围内更多的AI研究和应用探索。
然而,这场AI的胜利也引发了人们对AI的广泛反思。它展示了人工智能在极为复杂的领域超越人类的可能性,同时也提醒人们思考AI在未来社会中到底会扮演什么样的角色。
围棋作为一项富有文化和历史底蕴的传统游戏,其对弈过程充满了人类的创造力、艺术性和智慧。而AlphaGo的胜利,虽然在技术层面上令人惊叹,但也让人们开始思考:当机器在智力活动中超越人类时,人类又应该如何看待自己的智慧?AI的发展是否会取代某些人类特有的能力,甚至改变人类的社会结构和生活方式?AlphaGo的成功不仅是AI领域的一个里程碑,也是科技史上的重要节点。随着AI技术的不断进步,围棋的胜利只是一个开端。未来,AI将继续在更多领域展现超越人类的潜力并挑战人类智能的边界。作为人类,我们需要在这场未来的棋局中找到与AI共存、合作的方式。
回顾人工智能的发展历程,每一次在技术上取得重大进步几乎都标志着一个全新时代的到来。21世纪20年代初,随着数据量的激增、计算能力的飞速发展和深度学习技术的不断成熟,AI领域进入“大模型”时代。这一时期,以GPT-3、BERT、DALL-E等为代表的大规模预训练模型(Large Pre-trained Model)引领了AI领域的新浪潮,这些大模型在各种任务中展现出了前所未有的强大能力,开启了AI技术实际应用的新阶段。
1.Transformer引领新的技术革命:注意力机制的崛起
大模型时代的到来与Transformer架构的成功有着密不可分的关系。Transformer于2017年由Vaswani等人在论文“Attention is All You Need”中首次提出。这一架构通过引入自注意力机制(Self-attention Mechanism),打破了传统序列模型在处理长序列数据时的距离依赖瓶颈。注意力机制允许模型在处理输入时能够动态关注不同位置的上下文信息之间的关联性,从而在保持计算效率的同时捕捉长距离的语义关系。这一突破使得Transformer在没有循环结构的情况下,依然能够高效地处理大规模数据,并在自然语言处理任务中表现得比循环神经网络更加出色。
Transformer架构不仅在NLP领域引发了颠覆性的变化,还成为计算机视觉、音频处理等领域的核心技术之一。研究人员发现,在计算机视觉等任务中使用Transformer架构可以取得比传统方法更好的效果。随着该架构的有效性在越来越多的AI研究中得到验证,Transformer逐渐成为各类人工智能模型的通解,大模型时代的爆发也正是基于Transformer的广泛应用与创新,通过不断扩大模型规模、增加训练数据量,大模型也展现出越来越高的智能水平。
2.大模型的崛起与普及
大模型时代的真正开端可以追溯到2018年Google发布的BERT(Bidirectional Encoder Representations from Transformers)。BERT是一种基于Transformer架构的预训练语言模型,它通过对大规模文本数据进行双向学习,实现了对语言语境的深度理解。这一模型在自然语言处理(NLP)任务中取得了当时最佳的表现,并迅速成为学术界和工业界的标准工具。
BERT的成功标志着NLP领域进入了一个新的阶段,预训练模型的概念开始受到广泛关注。预训练模型通过在大规模语料库上进行自监督学习,能够捕捉语言中的复杂语义和结构信息,之后只需通过微调(Fine-Tuning)便可以应用于各种下游任务。这种方法极大地提高了模型的泛化能力和应用效率,逐渐取代了传统的特征工程和任务特定的模型。
2019年,OpenAI推出了GPT(Generative Pre-trained Transformer)-2,一种基于Transformer的生成模型,该模型因其卓越的文本生成能力而引发了广泛关注。与BERT不同,GPT系列模型专注于生成式任务,能够根据给定的上下文生成流畅连贯、语义合理的文本。尽管GPT-2的发布伴随着对AI滥用和伦理问题的担忧,但它的成功为大模型时代的全面爆发奠定了基础。
2020年,GPT-3的发布将大模型推向了一个全新的高度。GPT-3拥有1750亿个参数,远远超越了之前的任何模型。其出色的生成能力使得它能够处理从文本生成到编程代码生成、从翻译到复杂对话等多种任务,其表现与前一代模型相比上了一个台阶。GPT-3不仅展示了AI在NLP领域的潜力,还引发了关于大模型在其他领域应用的广泛讨论。
随着大模型在文本处理中的成功,研究者们开始探索将这些模型应用于其他数据形式,如图像和代码。2021年,OpenAI发布了DALL-E和CLIP,这两个模型展示了大模型在跨模态任务中的强大能力。DALL-E是一个图像生成模型,在2021年由OpenAI发布,它能够通过文本描述生成对应图像,展示了AI在理解和生成视觉内容方面的潜力,它可以生成各种风格和内容的图像,从而为艺术创作、设计和广告等领域带来了全新的工具。CLIP是另一种视觉模型,其作用是理解文本和图像并为它们的相似度打分,通过联合训练文本和图像数据,实现了跨模态的语义理解,能够将文本描述与图像进行匹配,主要用于图像搜索、图像分类任务。这些视觉模型的应用前景非常广阔,涵盖了搜索引擎、内容生成、自动标注等众多方向。
除视觉领域之外,大模型还在代码生成中展现了强大的能力。Codex是OpenAI基于GPT-3开发的一个代码生成模型,于2021年发布。该模型能够根据自然语言描述生成相应的编程代码。这类技术也被应用于GitHub Copilot等开发工具中,为开发者提供智能化的编程助手,大幅提升了编程效率。这标志着大模型已经逐步进入软件开发领域,改变了编程的传统模式。
2022年年末,OpenAI发布了基于GPT-3.5的大型语言模型ChatGPT,如图1-10所示,这一模型迅速在全球范围内引发轰动。ChatGPT能够进行和人类风格一致的自然、流畅的对话,可以回答问题、提供建议甚至进行创作。它的发布不仅标志着大模型技术的成熟,也使AI再次进入大众视野,并成为普通人日常生活的一部分。
图1-10 ChatGPT
ChatGPT的出现,使得人们开始真正理解并体验到AI的强大能力。与之前引起轰动的“深蓝”和AlphaGo等模型不同,ChatGPT是第一款真正能融入每个普通人日常工作和生活的AI应用,它在教育、客服、创作、娱乐等多个领域展现了巨大潜力,并且仍在通过不断的改进和更新持续扩展能力,也有越来越多的企业和个人开始将其纳入自身的工作流程之中。这一现象标志着人工智能的实际应用进入了全新的时代,大模型开始广泛且深刻地改变人们的生活和工作方式。
3.大模型时代的思考:迈向未来的AI
虽然ChatGPT等大模型的出现极大地提高了人们的工作效率和生活质量,然而,大模型时代的到来也带来了新的伦理问题和社会挑战。大模型在生成内容的过程中,可能会产生虚假信息、偏见甚至误导性内容。这类现象引发了社会各界的广泛讨论,如何在推动技术进步的同时确保AI的公正性、透明性和安全性,成为研究者和政策制定者共同关心的问题。
此外,随着大模型规模不断扩大,科技巨头的数据和计算中心持续扩张,开发大模型所需的资源消耗急剧增加,这引发了能源与环保组织的担忧。如何在提升大模型能力的同时减少对环境的影响,也成为一个重要的议题。大模型的开发者需要在技术创新与可持续发展之间找到平衡,以确保人工智能的长期健康发展。
未来,随着技术的进一步成熟和发展,AI有望继续发挥更大的影响力。大模型时代只是一个起点,随着新技术和方法的涌现,我们有理由相信,AI将会在更多领域内实现更为深远的变革,将人类社会带向更加智能和高效的未来。
百家争鸣:人工智能的三大学派
上一节回顾了人工智能的发展历程,从最初的梦想种子到大模型时代,这条波澜壮阔的崛起之路展示了AI领域发展至今的技术突破与思想变革。随着人工智能的发展以及各种哲学思想的影响,研究者们在探索的过程中逐渐分化并形成不同的方法论,这些差异最终演化为人工智能的三大主要学派:符号主义学派、联结主义学派和行为主义学派。每一门学派都代表着研究者们在不同阶段对智能本质的理解与探索。这些学派的形成并非偶然,而是随着人工智能领域的深入发展自然演化出的不同路径。本节将深入探讨这三大学派的理论基础、代表人物、经典应用以及它们在人工智能发展史中的地位和影响。
人工智能的发展历程中,随着研究的深入,逐渐分化出三大主要学派:符号主义学派、联结主义学派和行为主义学派。这三大学派的形成并非偶然,而是多种思想、科学和技术力量共同作用的结果。科学哲学的影响、认知科学的兴起,以及不同学科对人工智能研究的贡献,都是促成这些学派形成的关键因素。
1.科学哲学的影响
科学哲学作为探讨科学本质、方法和目的的学科,涉及科学的基础、方法和影响。20世纪初,逻辑实证主义在哲学界占据了重要地位,这一学派主张通过逻辑分析和经验验证来获得知识。这种思想直接影响了人工智能早期研究者们,他们试图通过形式化的逻辑系统来模拟人类思维,符号主义学派由此应运而生。
符号主义学派的核心理念便是将智能行为视为符号操作,这种观点深受逻辑实证主义和形式逻辑的影响。约翰·麦卡锡、赫伯特·西蒙等符号主义的奠基者们相信,通过定义明确的规则和符号,计算机就可以进行推理和决策,模拟人类的智能行为。符号主义的兴起代表了人工智能研究的一种哲学取向,即智能可以通过清晰的逻辑规则被解析和构建。
另外,实用主义哲学在美国的影响也不容忽视。实用主义主张知识的价值在于其应用效果,而非其理论的完美性。这种思想推动了行为主义学派的发展,强调通过实验和观察来理解智能,并将重点放在实际应用上,而非过于抽象的理论构建。坚持行为主义的研究者们认为,智能的核心在于适应环境的能力,这种适应性可以通过经验学习和行为反馈来实现。
2.认知科学的兴起
认知科学的兴起是20世纪中叶以来影响人工智能研究的重要思想运动之一,主要研究认知的用途以及具体工作原理,研究信息如何表现为感觉、语言、推理和情感。认知科学揭示了智能的多层次结构,而不同学科的交汇融合则为AI的发展提供了丰富的工具和方法。这些背景因素共同作用,促成了AI领域多样化的发展路径。认知科学是一个跨学科的领域,旨在理解人类心智的结构和功能。它结合了心理学、计算机科学、语言学、神经科学、哲学和人类学等多个学科的理论和方法,对人工智能研究产生了深远影响。
在认知科学的影响下,研究者们开始思考智能行为或许不仅仅是符号操作的结果,也可能涉及更为复杂的认知过程。这种思考促进了联结主义学派的形成。联结主义学派受到神经科学的启发,提出智能可能是由大量简单单元的并行活动产生的,这些单元通过网络结构相互连接,相互影响,由此形成复杂的认知功能。与符号主义自顶向下的方法不同,联结主义采用自底向上的方法,强调通过模拟神经网络来理解和实现智能。
认知科学还推动了对人类语言、感知和记忆等领域的研究,这些研究也直接影响了之后人工智能领域的发展。例如,在自然语言处理领域,认知科学的研究揭示了语言理解的复杂性,这种复杂性超越了简单的符号操作,需要结合语境、语义和语法等多方面的知识进行处理。这些研究促使人工智能研究者们相信,在面对自然语言处理任务时,需要考虑更为复杂的模型和算法。
3.不同学科对AI的影响
人工智能在形成和发展过程中也深受多个学科的影响,这些学科为AI研究提供了丰富的理论基础和方法工具,形成了不同的研究路径和学派。
❑ 计算机科学与逻辑学 :计算机科学作为人工智能的基石,提供了AI研究的基础算法和计算模型。作为逻辑学中的重要分支,形式逻辑为符号主义学派奠定了理论基础。通过形式化语言和逻辑推理,计算机科学家们试图构建能够模拟人类推理过程的系统,这种方法在早期AI研究中占据主导地位。例如,专家系统的设计依赖于规则和逻辑推理来进行决策,是符号主义应用的典型案例。
❑ 神经科学与生物学 :神经科学的研究揭示了人类大脑的工作原理,特别是在神经网络和学习机制方面的研究,为联结主义学派提供了灵感。研究者们通过模拟生物神经网络,试图重现大脑中信息处理的方式。生物学特别是对神经元连接和学习规则的研究,直接推动了人工神经网络的发展,这种模型在后来的深度学习革命中发挥了关键作用。
❑ 心理学与行为科学 :心理学,尤其是行为主义心理学,强调观察和实验的重要性,主张通过对行为的研究来理解智能。行为主义学派在人工智能领域的发展受到了行为科学的深刻影响,尤其是在强化学习和机器人学领域。行为主义的理论认为,智能可以通过与环境的互动以及不断调整行为来实现,这种思想直接影响了人工智能中的行为建模和学习算法。
❑ 语言学与哲学 :语言学对人工智能,特别是自然语言处理的研究起到了至关重要的作用。语言学的语法结构、语义分析等理论帮助AI研究者设计出了更为复杂的语言理解模型。此外,哲学中的心灵哲学和意识研究激发了人们对人工智能自主性和自我意识的探讨,尽管这些问题在当前AI研究中尚未解决,但它们为未来AI的发展方向提供了参考。
❑ 控制论与系统科学 :控制论研究反馈、控制和通信在机器和生物体中的作用,它为行为主义学派的产生奠定了基础。控制论的思想使研究者能够设计出根据反馈调整自身行为的智能系统,这在机器人学和强化学习中得到了广泛应用。系统科学则强调整体性和各部分之间的相互作用,帮助研究人员建立了关于复杂系统的整体理解,影响了人工智能的系统设计和整体优化。
人工智能领域的三大主要学派——符号主义、联结主义和行为主义,是多种思想和学科相互碰撞、融合的产物。科学哲学为AI研究提供了不同的思维框架,认知科学揭示了智能的多层次结构,而不同学科的交汇融合则为AI的发展提供了丰富的工具和方法。这些背景因素共同作用,促成了AI领域多样化的发展路径。正是在这些思想的碰撞与融合中,人工智能逐渐从一门学科发展为一个涵盖广泛、思想纷呈的领域。
符号主义学派,作为人工智能领域具有奠基作用的学派,源于对人类思维过程的符号化理解。这一学派的核心思想是,智能行为可以通过符号操作来实现,符号代表着知识的基本单元,这些符号之间的操作和组合则构成了思维过程。
1.符号主义的起源:人类思维的符号化
符号主义的起源可以追溯到20世纪中叶,当时的科学家们深受逻辑实证主义和形式逻辑的影响,试图将人类思维转化为一种可计算的过程。20世纪40年代末到50年代初,随着计算机科学的兴起,研究者们开始探索如何通过机器实现人类的智能行为。他们认为,既然人类能够通过符号和规则进行推理和决策,那么计算机也应该能够通过类似的方式模拟这些过程。
符号主义的早期研究集中在逻辑推理和数学定理的证明上,研究者们开发了一些早期的AI程序,这些程序能够使用逻辑规则来解决问题。这种方法被称为“自顶向下”的方法,因为它从高级的符号和抽象的概念规则开始,然后逐步分解为更具体的表示和操作,试图直接模拟人类的高级认知功能。
2.代表人物:纽厄尔与西蒙
符号主义学派的重要奠基者包括艾伦·纽厄尔和赫伯特·西蒙。这两位研究者不仅在人工智能领域做出了开创性的贡献,还对认知科学、计算机科学和管理科学等多个学科产生了深远影响。
艾伦·纽厄尔和赫伯特·西蒙在20世纪50年代共同开发了“逻辑理论家”程序。随后,纽厄尔和西蒙继续合作,开发了通用问题求解器(GPS)。GPS旨在模拟人类解决问题的过程,它通过规则设计进行一系列符号操作,逐步接近问题的解决方案。GPS的设计理念表明,智能行为可以被视为一系列符号变换的过程,这一观点也是符号主义学派的基础。
除了在AI领域的贡献,西蒙还因其在决策理论和管理科学方面的研究获得了1978年的诺贝尔经济学奖。纽厄尔和西蒙的合作成果为符号主义奠定了理论基础,为人工智能领域的进一步发展提供了宝贵工具和经验。
3.符号主义理念:知识表示与推理
符号主义的核心理念在于知识表示和推理。符号主义学者认为,智能的关键在于如何表示知识,以及如何基于这些表示进行推理。知识表示是指通过符号和规则将知识结构化,使得计算机可以理解和操作这些知识。推理则是通过逻辑操作,从已有的知识中得出新的结论。
在符号主义框架下,知识通常以逻辑形式或规则的方式表示,例如命题逻辑、语义网络等。这些表示方式允许计算机对知识进行精确的操作,从而在特定领域内模拟人类的推理过程。例如,在专家系统中,知识可以表示为一组“如果……那么……”格式的规则,计算机可以通过应用这些规则来推断新的知识或做出决策。推理是符号主义中的另一个重要概念,符号主义学者通过开发推理引擎,使得计算机能够在知识表示的基础上进行逻辑推导。推理引擎是一种软件程序或算法,能够基于已知的事实和规则进行逻辑推理,处理复杂的逻辑关系,进行模式匹配、定理证明等操作,模拟人类的思维过程。
符号主义的一个重要特点是“自顶向下”的设计方法,即从高层次的逻辑和知识表示出发,逐步实现底层具体的智能行为。这种方法在人工智能的早期研究中占据主导地位,并成为许多AI模型的设计基础。
4.符号主义的成就与局限
符号主义在人工智能领域取得了许多重要成就,尤其是在专家系统和认知架构的开发中。专家系统是符号主义在应用领域的一个重要成果,这些系统通过编码专家知识,能够在特定领域内执行复杂的推理和决策任务。
20世纪70年代至80年代,专家系统得到了广泛应用,其中最著名的例子之一是斯坦福大学开发的MYCIN——一个用于医疗诊断的专家系统。MYCIN通过一组规则来推断患者可能患有的疾病,并给出相应的治疗建议。尽管MYCIN在当时表现尚可,但它也暴露了符号主义的一些局限,比如严重依赖获取知识的质量、系统的鲁棒性不佳以及难以处理不确定性问题等缺陷。
另一个符号主义的重要成果是认知架构。认知架构是用于模拟人类认知过程的计算模型,通常包含一个知识表示系统和一个推理引擎,能够模拟多种认知任务,如记忆、学习和问题解决。代表性的认知架构包括ACT-R(Adaptive Control of Thought-Rational)和Soar,它们是模仿人类思维方式的计算机模型,就像给计算机装上了“人脑”。ACT-R主要关注人类如何记忆和学习,它的结构分为几个部分,有负责看的、有负责听的、有负责动作的,还有专门存储知识的部分。这些架构不仅在人工智能研究中得到应用,还为认知科学的理论研究提供了支持。
尽管符号主义在AI的发展早期取得了显著成就,但随着AI研究的深入,其局限性也日益显现。符号主义面临的最大问题是它在处理不确定性和模糊信息时表现不佳。符号主义系统通常依赖于明确的规则和逻辑,这使得它们难以适应复杂多变的现实世界。此外,符号主义的推理过程通常是基于确定性推理,而现实世界中的许多问题具有高度的不确定性,这也限制了符号主义系统的应用范围。
随着计算能力的提升和大数据时代的到来,AI研究逐渐转向了更为灵活的联结主义方法。联结主义通过模拟神经网络和学习过程,能够更好地处理复杂、非线性的问题,弥补了符号主义的不足。这一转变标志着人工智能研究进入了一个新的阶段,尽管符号主义不再占据主导地位,但其思想和方法仍然对许多领域产生了深远的影响。
在符号主义学派将智能行为看作符号操作和逻辑推理的结果时,另一个研究路径也在悄然兴起——联结主义。联结主义以其仿生学的思路,走出了一条不同于符号主义的智能探索之路。通过模拟大脑的神经网络,联结主义为人们提供了理解和实现智能的新视角。
1.联结主义的起源:模仿大脑的神经网络
联结主义的起源可以追溯到20世纪50年代,当时神经科学和心理学的研究表明,大脑的功能可以通过大量神经元的连接和互动来解释。这种认识启发了同时期的人工智能研究者,他们开始探索如何通过人工神经网络来模拟大脑的认知过程。与符号主义的自顶向下方法不同,联结主义采用自底向上的方法,通过大量简单神经元的并行处理来实现复杂的智能行为。这一学派的核心思想是,智能并非仅仅由符号操作组成,而是源自类似人脑结构的复杂网络。联结主义的核心思想是人类的心理活动、精神现象和智能表现都可以通过简单且一致的单元互相联结构成的复杂网络来描述。研究者认为,通过模拟人脑的神经网络,计算机也可以实现与人类类似的智能行为。
这种方法论上的分歧反映了符号主义与联结主义之间的根本差异。符号主义依赖于明确的逻辑规则和符号操作,而联结主义则强调通过学习和自组织的过程,从低级别的神经活动中涌现出高级别的智能。这种思路逐渐演变为今天广泛使用的神经网络模型,成为人工智能领域举足轻重的一部分。
2.代表人物:明斯基与罗森布拉特
联结主义的奠基者之一是弗兰克·罗森布拉特(Frank Rosenblatt),他在联结主义的发展过程中发挥了重要作用。罗森布拉特是感知器(Perceptron)模型的发明者,他的工作是联结主义的奠基石。感知器是最早的人工神经网络模型之一,它模拟了大脑中神经元的基本功能,能够通过学习调整自身的权重,从而对输入数据进行分类。罗森布拉特的感知器模型为后来的神经网络研究奠定了基础,尽管当时感知器未能达到预期效果,但它的影响是持久而深远的。
联结主义的另一位关键人物是马文·明斯基,他是达特茅斯会议的主要参与者之一。明斯基早年也曾积极研究人工神经网络,并提出了神经网络的早期模型。然而,他在1969年与西摩·帕普特(Seymour Papert)合著的《感知器》( Perceptrons )一书中指出了早期感知器模型的局限性,这一论断在一定程度上阻碍了神经网络研究的发展,使得联结主义在20世纪70年代逐渐失去了主导地位,直到深度学习大获成功后才得以“平反”。
3.联结主义理念:分布式表示与并行计算
联结主义的核心理念在于分布式表示和并行计算。与符号主义的明确规则与逻辑推理不同,联结主义认为智能源于多个简单单元的协同工作,而非针对符号的操作。这些单元即人工神经元,它们通过网络连接形成复杂的结构,能够通过并行处理和自组织机制,实现对复杂模式的识别和学习。
分布式表示是联结主义的一大特色。它认为信息并不是单独存在的符号,而应该通过网络中多个单元的激活模式来表示。每个神经元的状态只反映了整体信息的一部分,真正的意义取决于完整网络的激活模式。这种特点使得基于联结主义的AI模型能够更好地处理噪声和不确定性,并表现出更强的鲁棒性。
并行计算是联结主义的另一关键理念。在人工神经网络中,大量的神经元同时进行计算,这种并行方式使得联结主义模型在处理复杂任务时具有更高的效率。与符号主义的逻辑顺序推理不同,联结主义的并行计算方式能够同时处理多个信息流,从而更有效地解决大规模复杂问题。
4.发展历程:从感知器到深度学习
联结主义的发展历程充满了起伏,从早期的感知器模型到现代的深度学习,联结主义经历了多次关键转折,才逐步确立了今天在人工智能领域的核心地位。
感知器模型是联结主义最早的成果之一。1958年,弗兰克·罗森布拉特在IBM的资助下开发了第一个感知器模型,这一模型可以学习并解决简单的二分类问题。然而,如前所述,《感知器》一书揭示了感知器在处理非线性问题时的局限性。这一结论导致研究人员对神经网络的兴趣大幅下降,标志着联结主义迎来了的第一次低谷。
尽管感知器模型的局限性被暴露,联结主义却并未因此而消亡。20世纪80年代,随着计算能力的提升和新算法的出现,对于神经网络的研究再次复苏。反向传播(Backpropagation)算法的出现被认为是这一时期的重大突破。通过反向传播算法,多层神经网络得以被有效训练,克服了感知器模型的局限性。这一突破标志着联结主义的重新崛起,并为后来的深度学习奠定了基础。
进入21世纪,联结主义迎来了其最辉煌的时代——深度学习的爆发。深度学习通过使用多层神经网络,能够在庞大的数据集上自动学习特征,并在多个领域表现出色。2012年,AlexNet在ImageNet图像识别比赛中取得了突破性的胜利,标志着深度学习的全面崛起。
深度学习的成功不仅归功于算法的进步,还得益于大规模数据的可用性和计算能力的显著提升。通过使用卷积神经网络、循环神经网络等模型,深度学习在计算机视觉、语音识别、自然语言处理等领域取得了前所未有的成功,这一系列的成就也巩固了联结主义在人工智能领域的核心地位。
现代的联结主义不仅限于模仿生物神经网络,而且发展出了一套复杂的理论和技术体系,能够应对各种实际问题。尽管与符号主义相比,联结主义走了一条更加曲折的道路,但它最终凭借其强大的学习能力和适应性,成为人工智能领域的重要支柱。从自动驾驶汽车到智能语音助手,联结主义的应用已经深入影响人们日常生活的许多方面。虽然深度学习模型在可解释性和可控性方面仍面临挑战,但它的强大能力和泛用性已使其成为当今人工智能研究中拥有无可撼动地位的主流方法。
行为主义学派是人工智能领域独树一帜的流派,以对现实世界的关注和实践为导向,提供了一种直接而有效的智能实现路径。它的形成源自对生物行为的观察和模拟,强调通过简单行为的组合和互动,逐步构建出复杂的智能系统。与符号主义的逻辑推理和联结主义的神经网络不同,行为主义关注的是智能体如何在真实世界中与环境互动,通过直接的感知和动作循环,形成适应性的行为。
1.行为主义的起源:从简单行为到复杂智能
行为主义的起源可以追溯到20世纪中叶,当时许多生物学和心理学的研究表明,动物能够在没有复杂内部模型或推理过程的情况下,仅通过一系列简单的反应和行为模式,成功适应复杂多变的环境。这种观察促使人工智能研究者们开始思考,是否可以通过模拟这些简单行为,创造出同样能够适应环境变化的智能系统。
行为主义学派的核心思想是智能并非来自复杂的内部表示或推理过程,而是通过感知-动作(perception-action)循环,在智能体与环境的直接交互中涌现出来的。这种自底向上的智能构建方法,强调了实践和适应的重要性,推动了机器人等技术的发展。
2.代表人物:布鲁克斯
罗德尼·布鲁克斯(Rodney Brooks)是行为主义学派的代表人物之一,也是推动机器人领域从传统人工智能方法向行为主义方法转变的重要先驱。布鲁克斯在20世纪80年代提出了“基于行为的机器人”(Behavior-based Robotics)的概念,挑战了传统符号主义以逻辑推理为基础的AI模型。
布鲁克斯的研究聚焦于通过一系列简单的感知和动作模块,创建能在真实世界中运行的机器人,摒弃复杂的世界模型或高层次的认知能力。他的思想直接影响了机器人技术的后续发展,尤其是在移动机器人和自主系统领域。
布鲁克斯是麻省理工学院(MIT)人工智能实验室主任,最著名的贡献之一是他为机器人发明的分层控制架构,后来也被称为“包容架构”(Subsumption Architecture),这一架构被应用于许多早期的自主机器人,如著名的Genghis机器人,如图1-11所示。Genghis是一个能够在崎岖地形中行走的六足机器人,行动非常灵活迅速。它主要依靠分布式的行为控制系统工作,而不是依赖传统的复杂规划算法。
图1-11 Genghis机器人
布鲁克斯通过这些成果展示了行为主义在实际应用中的有效性,证明了复杂行为可以通过简单模块的组合与互动实现。这一思想彻底改变了人们对机器智能的理解,开辟了一条不同于基于规则的符号主义和基于仿生的联结主义的智能构建路径。
3.行为主义理念:感知-动作循环
行为主义的核心理念在于感知-动作循环,即智能体通过感知环境做出行动,并根据反馈调整行为。这一过程强调直接与环境的交互,否定了智能体复杂内部表示的必要性。这种理念与符号主义的“自顶向下”方法形成了鲜明对比。
在传统符号主义的框架中,智能体依赖于通过内部模型进行推理和计划,而行为主义则认为这种内部模型既复杂又不必要。布鲁克斯的观点是,智能并不需要依赖于复杂的世界模型,而是可以通过简单的行为模块在局部环境中直接应对各种情境。他提出的分层控制架构就是这一理念的具体体现。
分层控制架构将智能体的行为分解为多个层次,每个层次都处理特定的感知-动作循环,较低层次的行为通常是简单的条件反应,而较高层次的行为则可能涉及更复杂的任务。各层次之间虽然相互独立,但可以通过抑制或优先机制实现互相影响,从而实现整体行为的协调和适应,这种架构不需要复杂的内部表示就能够高效地应对动态变化的外部环境。
4.行为主义应用:从机器人技术到智能家居
尽管行为主义在解释复杂认知任务时可能存在局限,但在处理实时、动态和不确定性环境中的任务时,它的作用确实无可替代。随着技术的不断发展,行为主义将继续在那些需要快速反应和高适应性的应用领域发挥重要作用。目前,行为主义学派的理念已经在多个领域得到了广泛应用,尤其是机器人技术和智能家居系统领域,其影响尤为显著。
在机器人技术领域,行为主义的感知-动作循环理念被广泛应用于自主移动机器人和工业机器人中。早期的机器人系统依赖于详细的环境建模和复杂的路径规划算法,而行为主义提出的分层控制架构则提供了一种更加灵活和鲁棒的解决方案。
布鲁克斯的Genghis机器人就是行为主义应用的一个经典案例,Genghis没有复杂的内部模型,而是通过简单的行为模块应对环境变化。这一理念之后也被应用到更多的移动机器人开发中,如清洁机器人、自动导引车(AGV)等,这些机器人能够在复杂、不确定的环境中执行清扫、导航、运输等任务。在工业机器人领域,行为主义的思想也被用于开发更为灵活的生产线机器人。这些机器人能够实时感知工作环境的变化,并调整操作策略,从而提高生产效率和适应性。例如,协作机器人(Cobot)通过实时感知人类工人的动作和意图,能够在生产线上安全、有效地与人类协同工作。
随着物联网的发展,行为主义的理念也逐渐扩展到智能家居系统中。智能家居通过分布式传感器网络和自动控制系统,可以实现对家庭环境的实时监测和调整。这些系统通过简单的感知-动作循环,能够自动调节温度、照明、安全等多项家居功能,而无须用户的持续干预。例如,智能恒温器可以通过感知室内温度和用户的作息习惯,自动调整室内温度,以保持室内温度的舒适并达到节能的效果。智能照明系统能够根据光线强度和人们的活动情况自动调整灯光,提供更加人性化的照明环境。此外,行为主义还影响了智能安全系统的发展。这些系统通过感知家庭周边环境的变化,如门窗开关、异常声音或运动,能够自动做出响应,如报警、拍照或联系主人,从而提供主动的安全保护。这些系统的核心在于实时响应并适应用户需求,根据外部环境的变化进行自我调整,这正是行为主义理念的具体体现。
在符号主义、联结主义和行为主义三大学派的基础上,人工智能走过了数十年的发展历程。这些学派各自为AI领域贡献了独特的理论和技术,但随着时间的推移,研究者逐渐认识到,单一学派总存在自身的局限性,难以应对所有挑战。于是,融合不同学派的优势,创新出更为复杂和多元的智能系统,成为AI发展的新方向。同时,随着AI技术在各行各业的广泛应用,新的挑战和机遇不断涌现,如何凝聚各方力量共同应对挑战,推动AI领域的持续进步也引起了人们的思考。
1.混合智能系统
混合智能系统是AI领域一大创新成果,通过结合不同学派的理论与技术,力求在解决复杂问题时发挥各自的优势。符号主义提供了强大知识表示和逻辑推理能力,联结主义在模式识别和特征学习方面表现卓越,行为主义则擅长实时适应和环境交互。将这些学派擅长的不同能力整合形成的混合系统可以在复杂、多变的环境中表现出更高的智能程度和适应性。
例如,神经符号混合系统正是这一思路的典型代表。通过将符号主义的逻辑推理能力与联结主义的神经网络相结合,神经符号混合系统能够在具有高度结构化需求的任务,如法律推理、数学问题求解等领域取得出色表现。此外,在机器人领域,研究者也开始探索将行为主义的实时响应机制与深度学习的学习能力相结合,开发出能够在动态环境中自主学习和调整行为的机器人系统。这些系统通过感知环境变化,利用深度学习模型进行模式识别,同时结合行为主义的模块化控制策略,实现了自动驾驶、仓储物流等复杂任务的自动化执行。
混合智能系统的出现,标志着人工智能领域正在朝着更为多样化和集成化的方向发展。通过结合多种技术和方法,研究者能够开发出更强大、更灵活的智能系统,满足不断变化的应用需求。
2.跨学科合作
人工智能的发展不仅依赖于计算机科学和数学,还需要跨学科的合作。随着AI技术的深入发展,心理学、神经科学、语言学、哲学、伦理学等学科的知识和方法也对AI研究起到了重要的补充作用。这种跨学科合作不仅推动了AI技术的进步,还促进了人们对人类智能本质和机器智能边界的深入理解。
在神经科学的帮助下,人工智能研究者能够更好地理解大脑的结构和功能,从而开发出更为精确和有效的神经网络模型。例如,大脑中神经元的连接模式和信息处理方式直接启发了深度学习中的卷积神经网络和递归神经网络的设计。
语言学的研究也对自然语言处理领域产生了深远影响。通过理解语言的结构等理论,AI研究者能够开发出更为复杂的语言模型,如BERT和GPT系列,极大地提升了机器在自然语言理解和生成方面的能力。
此外,哲学和伦理学的探讨为AI的发展提供了重要的价值导向。随着AI技术在社会中的广泛应用和其影响力的日益扩大,关于AI伦理、安全和自主性的讨论变得日益重要。跨学科合作不仅能帮助研究者解决技术难题,还为AI的未来发展开拓了更广阔的视野。
3.AI在各行各业的应用
随着技术的不断进步,人工智能已经从实验室走向现实世界,广泛应用于各行各业。从医疗健康到金融服务,从制造业到教育行业,AI正在深刻改变着我们的工作和生活方式。
在医疗健康领域,人工智能已经成为诊断、治疗和药物研发的重要工具。例如,深度学习模型能够通过学习海量的医疗数据进行医学影像分析,早期检测出癌症等重大疾病,大大提高了诊断的准确性和效率。在大模型时代,AI医疗系统还可以提供更加精准的诊断建议,预测疾病的风险,并制订个性化治疗方案。
在金融服务领域,人工智能被广泛应用于信用评估、风险管理和投资决策。通过分析客户行为数据和市场趋势,AI能够提供更为精准的信用评分和风险预测,帮助金融机构优化贷款审批和投资策略。此外,AI驱动的自动交易系统能够在毫秒级别内响应市场变化,执行复杂的交易策略,提高了金融市场的效率和流动性。
人工智能在制造业领域也得到了深度应用,特别是在智能制造和工业自动化方面。通过整合机器学习和物联网技术,智能工厂能够实现生产线的自动化监控和优化,大幅提高生产效率和产品质量。AI可以实时监测生产设备的状态,预测故障的发生并提前安排维护,减少停机时间和生产损失。
在教育领域,人工智能已经被用于个性化教学、学习分析和教育资源优化等方面。通过分析学生的学习行为数据,AI能够为每个学生量身定制学习路径,推荐适合的学习资源,并实时反馈学习效果。这种个性化的学习体验能够帮助学生更好地掌握知识,提高学习效率。
AI技术的广泛应用不仅在各行各业中提升了生产效率和质量,也带来了新的商业模式和经济增长点。随着AI技术的不断成熟,未来也将继续推动各行业的数字化转型,为经济发展注入新的活力。
4.通用人工智能的展望
通用人工智能(AGI)也称强人工智能,是指能够在各种任务中表现出与人类相当甚至超越人类的智能水平的人工智能程序。与目前专注于特定任务的狭义人工智能(也称弱人工智能)不同,AGI具备广泛的认知能力,能够在不同领域学习、推理和解决问题。AGI的实现将标志着人工智能技术的又一次巨大飞跃,但同时也会带来更为深远的技术、伦理和社会影响。
目前,尽管AI应用在许多领域取得了显著进展,但距离AGI的实现仍有很长的路要走。有关AGI的研究依然面临着诸多技术挑战,包括如何构建具备通用学习能力的模型,如何让AI具备自主推理和创造力,以及如何解决AGI的安全性问题。
随着研究的深入,许多科学家和工程师认为,AGI的实现可能需要突破当前的AI范式。混合智能系统、神经符号模型、脑机接口等前沿技术,可能为AGI的实现提供新的参考路径。此外,跨学科的合作和新的理论突破,也有望在AGI的实现过程中发挥重要作用。
然而,AGI的潜在影响也引发了广泛的社会讨论。AGI的到来可能会彻底改变人类社会的结构,带来前所未有的机遇和风险。为了应对这一挑战,全球范围内的研究机构、企业和政府需要共同努力,确保AGI的研究和应用能够为人类社会带来积极的影响。
5.伦理与安全问题
随着人工智能技术的广泛应用,尤其是大语言模型对人类社会产生深刻影响之后,伦理与安全问题也成为不可回避的挑战。AI模型的决策过程通常基于大量数据和复杂算法,这使得它们在透明性和可解释性方面存在不足。此外,AI技术的广泛应用也引发了关于数据隐私、算法偏见和AI自主意识等伦理问题的讨论。
数据隐私是当前AI应用中的一个主要问题。AI模型的训练依赖于大量数据,这些数据大部分来自互联网,有时会包含敏感的个人信息。如果数据保护措施不当,可能导致隐私泄露和数据滥用。例如,在医疗和金融领域,AI模型处理的大量个人和企业数据如果被不法分子获取,将对个人隐私和企业资金安全造成严重威胁。
算法偏见也是一个备受关注的问题。AI模型的决策过程依赖于使用的训练数据,如果训练数据本身存在偏见,AI模型的输出可能会放大这些偏见,导致不公平的决策。例如,在招聘、贷款审批等方面,模型可能会基于性别、种族等因素做出不公正的判断,进一步加剧社会不平等现象。
此外,AI自主性的问题也引发了广泛的伦理讨论。随着技术的进步,越来越多的AI应用具备了自主决策的能力,但这也带来了责任归属的问题。当AI模型做出错误决策或造成意外后果时,如何确定责任归属,也是一个亟待解决的伦理难题。
为了应对这些挑战,人工智能研究者和相关政策制定者正在积极探索AI伦理的原则和框架。例如,首届人工智能安全峰会于2023年11月1日至2日在英国布莱奇利园举行,如图1-12所示,包括中国在内的28个参会国家一致认为,人工智能对人类构成了潜在的灾难性风险。峰会发布《布莱奇利宣言》,对全球人工智能的治理发出呼吁。宣言的重点落在了治理前沿人工智能模型的两类关键风险:滥用和失控。又如,由欧盟委员会在2021年4月21日提议并于2024年3月13日获得欧洲议会通过的《欧盟人工智能法案》提出了人工智能应当遵循的伦理准则,包括透明性、可解释性、公正性和责任归属等。这些准则旨在确保AI技术的发展能够尊重人类的基本权利和社会价值。
图1-12 首届人工智能安全峰会
本章首先全面回顾了人工智能从萌芽到大模型时代的发展历程,在发展过程中,人工智能经历了多次起落:从早期的繁荣到第一次AI寒冬,从专家系统的曙光到深蓝战胜卡斯帕罗夫,从深度学习革命到AlphaGo击败李世石,再到大模型时代的到来。每一次技术突破都推动着这个领域向前发展,也带来了新的思考和挑战。在这个过程中,人工智能形成了三大主要学派:以逻辑推理为核心的符号主义、模拟人脑结构的联结主义,以及强调环境互动的行为主义。这些学派各具特色,从不同的角度探索了实现人工智能的路径。如今,这些学派的理论和方法正在逐渐融合,推动着混合智能系统的发展。
符号主义、联结主义和行为主义为AI领域贡献了各自学派独特的理论和技术,但单一学派总存在自身的局限性,难以应对所有挑战。而且人工智能的未来是复杂且多元化的,符号主义、联结主义和行为主义的融合才能推动AI技术的进一步创新和发展。然而,在这一过程中,解决伦理和安全问题至关重要。如何在追求人工智能发展这一目标的同时,保持技术的可控性和安全性,是现在以及未来AI研究的重要课题。只有在确保技术进步与社会价值相协调的前提下,人工智能才能真正实现其潜力,并为全人类创造美好的未来。
约翰·麦卡锡
1927年,“人工智能之父”约翰·麦卡锡(John McCarthy,1927年9月4日—2011年10月24日)出生在美国波士顿的一个移民家庭,他从小就是个天才少年,不仅对数字敏感,还对宇宙的奥秘充满好奇。在其他孩子还在学习基础代数时,麦卡锡就已经自学了大学的微积分课程。高中毕业后,他被加州理工学院录取,正式踏上了研究数学并追逐科学真理的旅途。
1951年,麦卡锡获得了加州理工学院的数学博士学位。然而,他的心思并不仅仅停留在复杂的数学方程式上,还对进行计算的机器产生了兴趣。他的脑海中萌生了一个大胆的想法:如果机器能够计算,那它为什么不能像人类一样思考呢?这个问题困扰了他,并成为他日后持续研究的方向。
1956年,麦卡锡与几位计算机科学先驱共同组织了一次传奇的学术聚会——达特茅斯会议。就是在这场会议上,麦卡锡首次提出了“人工智能”(Artificial Intelligence,AI)这个概念。他主张:“学习或任何形式的智能都可以被精确描述,以至于机器也能模拟它们。”这一主张震惊了整个学术界,从此,人工智能作为一个独立的研究领域正式诞生,麦卡锡的名字也与人工智能产生了密不可分的联系。他在斯坦福大学度过了大半职业生涯,并在此建立了世界一流的人工智能研究中心。1971年,因为在人工智能领域的杰出贡献,麦卡锡赢得了计算机科学的最高荣誉——图灵奖,这不仅是对他个人成就的肯定,也标志着人工智能这个新兴领域逐渐在科学界占据了一席之地。
2011年10月24日,麦卡锡去世,但他为世界留下了丰富的思想和技术遗产,时至今日依然影响广泛,智能手机、自动驾驶汽车、聊天机器人等高科技产品的蓬勃发展都受益于麦卡锡当年的远见卓识。麦卡锡就像一位“魔法师”,为世界开启了一个充满可能性的未来。
马文·明斯基
1927年,马文·李·明斯基(Marvin Lee Minsky,1927年8月9日—2016年1月24日)出生于美国纽约市。他在童年时期就展现出科学研究的天赋,他不像普通孩子一样喜欢玩弹珠或追逐打闹,而是沉迷于拆解和组装各种机器。这样的人生开端似乎也预示了他未来将拥有不可估量的创造力。
二战结束后,明斯基选择在哈佛大学学习数学,在1950年以数学学士身份毕业的他又前往普林斯顿大学深造,最终在1954年取得了数学博士学位。然而,和麦卡锡一样,在数学这一深邃领域的探索过程中,明斯基的思绪也逐渐脱离数学本身,而是对另一个方向产生了浓厚兴趣:机器能否像人类一样思考?于是,1956年,明斯基和包括约翰·麦卡锡在内的一帮“疯狂科学家”朋友在美国新罕布什尔州达特茅斯组织了一场历史性的会议。这次会议被后世誉为“人工智能诞生的里程碑”,因为他们在会上抛出豪言壮语:机器不仅能做加减乘除等数学运算,它还能学习、推理和解决问题。这仿佛是一场属于未来的头脑风暴,开启了整个人工智能领域的研究。1959年,志趣相投的明斯基与麦卡锡又联合创立了麻省理工学院的人工智能实验室,实验室吸引了全世界计算机科学领域的优秀人才,日后成为人工智能研究的圣地。
然而,明斯基的科研生涯也并不总是一片坦途。他曾在1969年与西摩·帕普特合著了《感知器》一书,书中详细分析了早期的神经网络模型——感知器的局限性,他们不仅指出了感知器的弱点,还让整个研究界对神经网络失去了信心。许多科学家放弃了这个方向,转而研究符号推理。讽刺的是,几十年后,神经网络居然以一种王者归来的姿态成为现代AI的核心技术。也许明斯基自己都没想到,他的一本书居然引发了一场AI领域的“世纪笑话”。
明斯基不仅在计算机领域不遗余力地推动着“机器智能”,他在哲学领域也有着深入的思考。他大胆预言,机器未来不仅能具备人类智能,甚至能超越人类。明斯基经常思考智能究竟是什么,他认为只要设计得当,机器也可以像人类一样拥有复杂的思想、感情,甚至拥有自我意识。科幻电影《2001:太空漫游》的观众或许记得影片中的超级智能计算机HAL 9000。实际上,这个角色诞生的背后也离不开明斯基的贡献,他作为该影片的AI顾问,协助设计了这位“AI明星”。在电影中,HAL 9000的智能和叛逆行为折射出人类对人工智能未来的幻想与担忧,而这正是明斯基试图引发的思考:当机器拥有自我意识时,究竟会发生什么?
1969年,明斯基因其对AI的开创性贡献获得了计算机界的最高荣誉——图灵奖。2016年1月24日,这位热爱思考的智者离开了这个世界,将他的梦想留给了未来的AI时代。他的故事告诉我们,科学的道路总是充满着奇妙的反转与无限可能。
纳撒尼尔·罗切斯特
纳撒尼尔·罗切斯特(Nathaniel Rochester,1919年1月14日—2001年6月8日)堪称计算机界的“幕后英雄”,虽然他的名字不像图灵或冯·诺依曼那样家喻户晓,但他对现代计算机科学与人工智能的贡献同样不容忽视。罗切斯特是IBM 701的首席架构师,世界上第一台批量生产的科学计算机的设计者,他还写下了第一个汇编程序,为现代计算机的诞生奠定了基础,可以说没有他就没有现在我们能轻松使用的个人计算机。
1919年,罗切斯特出生在纽约市,这座大都市就像一座大熔炉,似乎天然适合孕育科学奇才。和许多心怀科学梦想的年轻人一样,罗切斯特进入了麻省理工学院,并选择电气工程作为他的主修方向。然而,第二次世界大战的爆发却把他带上了另一条路:他加入了美国海军,专注于雷达技术的研发。正是在这一时期,罗切斯特在雷达屏幕上磨练出强大的技术直觉。
二战结束后,罗切斯特进入IBM,开始了他与计算机的不解之缘。20世纪50年代,罗切斯特站到了科技创新的最前沿,成为IBM 701的首席架构师。IBM 701是人类历史上第一台批量生产的科学计算机,某种意义上可以说是现代计算机的“祖先”。而且罗切斯特亲手写下了第一个汇编程序,在那个手写机器码的时代,他以“简化一切”的理念为程序员们创造了一个全新的工具,改变了计算机编程的方式。
1956年,罗切斯特迎来了职业生涯的高光时刻。他与计算机科学家约翰·麦卡锡等人共同发起了达特茅斯会议。罗切斯特不仅在概念上是开路先锋,还亲自为IBM 704计算机编写了一个能解决代数问题的程序。这是早期符号AI程序的首次尝试,标志着计算机首次尝试“思考”。虽然该程序的性能甚至比不上现在的科学计算器,但它的意义不容小觑。
罗切斯特还对早期神经网络领域做出了贡献,开发了“随机神经网络模拟器”,试图模仿人类大脑的学习过程。虽然当时硬件条件受限,这些探索举步维艰,就像用算盘研究量子力学,但他依然为后来的神经网络与机器学习打下了基础。可以说,今天炙手可热的GPT等AI模型,都离不开罗切斯特的贡献。
尽管纳撒尼尔·罗切斯特在计算机和人工智能领域做出了不可估量的贡献,但他始终是个低调的人,在IBM一直工作到退休。2001年,罗切斯特悄然离世,但他所开启的技术革命浪潮今天依然波涛汹涌。
克劳德·香农
克劳德·埃尔伍德·香农(Claude Elwood Shannon,1916年4月30日—2001年2月24日)堪称数字世界的“总工程师”,是信息论之父和信息时代的奠基者。他不仅改变了数学、电子工程、计算机科学,也在人工智能领域留下了浓墨重彩的一笔。
1916年,香农出生在美国密歇根州,他从小就展现出非凡的数学天赋和动手能力,据说他儿时的乐趣是摆弄电线和无线电装置。1936年,香农在密歇根大学获得了电气工程和数学的双学士学位,21岁进入麻省理工学院继续深造。麻省理工学院的学生都是聪明绝顶的天才,但香农还是脱颖而出,用自己的硕士论文震撼了整个科技界。这篇论文被称为“可能是20世纪最重要的硕士论文”,香农在文中第一次提出将布尔代数应用于电子电路,证明了用电路可以模拟任何逻辑操作,这一发现为现代数字电路和计算机的诞生铺平了道路。
香农的天才远不止于此,1948年,他又发表了一篇震撼世界的论文——《通信的数学理论》,这篇论文被誉为“信息时代的大宪章”,堪称奠定了整个现代通信系统的基础。香农在文中提出了“信息熵”这一概念,把信息流量的计算方式变成了数学问题,从而解决了如何在嘈杂环境中高效传输信息的难题。互联网、手机等能够极大地便利人们的生活,都离不开香农这一重要理论的支撑。
香农不止擅长理论研究,还具有超强的动手能力。20世纪50年代,香农发明了一只神奇的机械鼠——忒修斯鼠,这只“老鼠”能够通过试错学习找到迷宫的出口。这项发明虽然看起来像是“科学版玩具”,但它展示了机器如何模仿人类进行学习的过程,可以说是人工智能的早期尝试。香农还撰写了关于计算机国际象棋编程的论文,赋予了计算机“学习下棋”的能力。
香农不仅是一个天才的科学家,还是一个在生活中充满“玩闹精神”的顽童。他喜欢骑独轮车、玩杂耍,甚至发明了一台能够玩杂耍的机器。除此之外,他还发明了能解魔方的机器,构建了一台基于罗马数字的计算机。这些“搞怪”的发明展示了香农对科学的纯粹热爱。香农的同事和朋友们时常开玩笑说他是个“不务正业”的科学家,但其实这正是他创造力的体现。谁说科学家不能一边骑独轮车一边思考复杂的数学问题呢?他把科学带到了生活中,玩得不亦乐乎,真正做到了将知识运用于实践中。
香农的工作跨越多个领域,他的成就不仅改变了他所在的时代,也为21世纪的科技发展奠定了基础。有人甚至将他与爱因斯坦和牛顿相提并论,称他是21世纪影响最大的科学家之一。
赫伯特·西蒙
1916年,赫伯特·亚历山大·西蒙(Herbert Alexander Simon,1916年6月15日—2001年2月9日)出生在威斯康星州密尔沃基的一个犹太家庭,他的父亲亚瑟·西蒙是一位德裔犹太工程师和发明家。他兴趣广泛,涵盖科学、机械和园艺,同时具有德国人特有的严谨作风。西蒙的母亲是一位出色的钢琴家,她对音乐的热爱也感染了西蒙。西蒙的舅舅哈罗德也对他产生了重要影响。舅舅酷爱阅读,常常在早餐前爬到公园的树上读书,这种求知若渴的精神深深感染了西蒙,他也逐渐爱上了阅读。西蒙曾说,阅读对他来说就像吃饭一样,是每天的必需。在高中期间,西蒙积极参加学校的辩论、科学、拉丁语和学生会等俱乐部,且经常担任领导职务。他还是公共图书馆和博物馆的常客,始终对寻找新的知识充满热情。西蒙的兴趣十分广泛,包括徒步旅行、集邮、昆虫研究、绘画、国际象棋、弹琴和学习外语。
西蒙1949年加入卡内基梅隆大学,开始了自己涉猎广泛的研究生涯。1955年,他与艾伦·纽厄尔合作开发了“逻辑理论家”,用于证明数学定理,这被认为是第一个人工智能程序。1957年,他们又开发了“通用问题求解器”,通过手段-目的分析来解决复杂问题。西蒙与纽厄尔还合作提出了物理符号系统假说,这也是人工智能符号主义学派的理论基石。在认知科学领域,西蒙的“组块”理论解释了人类如何通过组织信息来增强记忆和学习能力,启发了许多人工智能学习系统的设计。除此之外,西蒙还因提出有限理性理论和对组织决策过程的开创性研究获得了1978年的诺贝尔经济学奖。
西蒙与中国也有着特别的缘分,他曾十次访问中国,总计在中国待了大约一年。他与中国科学院心理研究所的朱新民教授合作研究适应性学习。朱教授回忆说,西蒙从不争论自己的观点是正确的,他为人谦和,无论是作为科学家还是朋友,他都展现出无私、友爱的合作精神,这些品质让他成为难得的良师益友。他欣赏且尊重中国文化,愿意无私地与中国学者分享自己的研究成果,这种开放的态度也赢得了中国学界的尊重,1994年,西蒙当选为中国科学院首批外籍院士。
西蒙不仅是人工智能的先驱,还提出了决策理论和组织行为学,为经济学和管理学做出了突出贡献,也是首位既获得图灵奖又获得诺贝尔奖的杰出科学家,他的成就跨越学科的边界,对现代科学技术的发展产生了深远影响。
艾伦·纽厄尔
艾伦·纽厄尔(Allen Newell,1927年3月19日—1992年7月19日)是人工智能和认知科学的早期先驱,也是帮助计算机不再只是做加法而是学会“思考”的天才之一。
纽厄尔出生在旧金山,少年时就展现出对科学和数学的强烈兴趣。二战期间他曾短暂服役,之后进入斯坦福大学主修物理,并于1949年顺利毕业,但他并没有成为一个物理学家,而是最终选择投身于计算机科学与人工智能。
20世纪50年代初,纽厄尔加入了兰德公司,逐渐对博弈论和决策理论产生浓厚兴趣。在这里,他遇见了“人生搭档”——赫伯特·西蒙,这段缘分直接点燃了他对人工智能和认知科学的热情。这对科学界的“神仙组合”意识到,计算机不仅可以进行无聊的算术运算,也许还能用来模拟人类的思维方式。于是,他们决定试试能不能让计算机“开动脑筋”。
1955年,纽厄尔和西蒙一起开发了“逻辑理论家”(Logic Theorist),它实际上是人类历史上第一个人工智能程序,能够模仿人类解决问题的逻辑步骤,并证明数学定理。纽厄尔和西蒙的合作没有就此止步,他们继续开发了通用问题求解器。通用问题求解器的目标是模拟人类解决问题的通用过程。纽厄尔提出了一种叫“手段-目的分析”的方法,让计算机把复杂问题拆成小问题来处理,这种“拆题技巧”对当时的计算机来说是革命性的进步。这个模型不仅在人工智能领域引发了巨大轰动,也给认知心理学带来了新思路,解释了人类一步步解决问题的过程。纽厄尔和西蒙不仅让机器学会了思考,还顺便帮人类弄清了自己是怎么“动脑”的。他们对人工智能、人类认知和思维过程仿真做出了开创性贡献,也因此共同获得了被称为计算机界的诺贝尔奖的图灵奖。
雷·所罗门诺夫
雷·所罗门诺夫(Ray Solomonoff,1926年7月25日—2009年12月7日),他的名字不算家喻户晓,但他绝对是人工智能领域低调的巨星。
所罗门诺夫出生在美国俄亥俄州克利夫兰,和所有天才儿童一样,他从小就表现出对数学和科学的浓厚兴趣。别人家的孩子还在摆弄玩具时,他已经在琢磨宇宙的奥秘了。二战后,所罗门诺夫前往芝加哥大学学习物理和数学,但此时年轻的他显然不是那种循规蹈矩的人,他很快意识到,虽然物理和数学都很酷,但有个领域更吸引他,那就是控制论和计算机科学。
当时的计算机还像蹒跚学步的婴儿,但所罗门诺夫已经看到了它的潜力。到20世纪50年代,大部分人还在争论“机器能做什么”时,所罗门诺夫已经在思索“如何让机器进行思考”。在那个计算机还只是用来进行基础运算的年代,所罗门诺夫却相信机器也能拥有思考的能力。作为早期AI研究的先行者之一,他并不满足于让机器简单地模仿人类行为,而是专注于探究智能的核心本质。他认为智能是一种可以被测量、定义甚至是被创造的东西。
真正让所罗门诺夫名垂青史的,是他在1960年提出的算法概率理论。这一理论听起来很简单,就是过去的数据可以用来预测未来的事件,但所罗门诺夫的高明之处在于,他用数学形式化了这一过程。所罗门诺夫的算法概率理论为机器学习方法奠定了数学基础。
雷·所罗门诺夫就像是人工智能历史上“最聪明的怪才”——他既为AI打下了数学基础,又预见了智能机器的未来。尽管所罗门诺夫的贡献巨大,但他本人却并非一个追名逐利的人,他得到了包括1995年艾伦·纽厄尔研究卓越奖在内的诸多荣誉,但始终保持低调。雷·所罗门诺夫的理论和思想扎根在AI的每一个角落,他就像一个伟大的魔术师,用数学与逻辑的魔杖悄然无声地改变了整个世界。今天,成千上万的AI研究人员和数学家都站在他的肩膀上,继续拓展AI的未来。
奥利弗·戈登·塞尔弗里奇
奥利弗·戈登·塞尔弗里奇(Oliver Gordon Selfridge,1926年5月10日—2008年12月3日),出生于英国伦敦。在战火纷飞的二战时期,年轻的塞尔弗里奇和当时许多的欧洲学者一样前往美国寻找避风港,他来到了麻省理工学院。塞尔弗里奇一开始只是想在数学的象牙塔里深耕细作,却在这个过程中无意间走上了塑造现代人工智能的伟大道路。这或许是命运开的一个小小的玩笑,谁能想到,一个年轻的数学迷竟然对“让机器开口说话”如此着迷。
在20世纪50年代的科技圈,计算机不过是“高级算盘”,大多数人很难想象这些金属机器还能“看得懂”图像或“听得见”声音。但是,塞尔弗里奇不走寻常路,他独具慧眼地预见到,机器不仅能计算,还可以拥有“感知”能力。对于他来说,计算机不仅是冷冰冰的硬件,更是可以通过模仿人类大脑学会识别世界的智能体。
1959年,他发表了具有划时代意义的论文——《鬼域:一种学习范式》,虽然名称看起来有一丝恐怖,它实际上却是人工智能起步阶段的一篇经典论文。文中,塞尔弗里奇把机器感知比作一个“心智社会”,每个“魔鬼”负责识别不同的特征,比如,某个“魔鬼”专门盯着直线看,另一个则对曲线情有独钟。这些“魔鬼”争先恐后地“喊叫”,就像在开一场大合唱,声音最大的“魔鬼”就会起主导作用,仿佛告诉机器:“嘿,这里有个特征!”鬼域模型表面上有些诙谐的隐喻,实际上却开创了一个新纪元。塞尔弗里奇提出的概念让机器不仅可以通过简单计算处理信息,还能通过多个简单组件协同工作,解决复杂问题。这种思想正是现代人工智能中并行处理和神经网络的雏形。塞尔弗里奇于2008年与世长辞,但他的“鬼域”思想依然在人工智能的天空中飘荡。
特伦查德·莫尔
特伦查德·莫尔(Trenchard More,1930年4月14日—2019年10月4日)的一生既没有乘风破浪的轰动场面,也没有惊天动地的壮举,却留下了深远的影响。他的一举一动,推动了整个计算机科学的进程。
莫尔出生于纽约市,从小就表现出对数学难以抑制的热爱。别人玩玩具,他玩数字;别人画画,他在纸上解方程。这样一个有趣的孩子早早踏上了学术之路,进入哈佛大学学习,成为数学“学霸队”中的一员。莫尔在哈佛得到了当时著名数学家的悉心指导,掌握了许多高深的数学理论。从哈佛毕业后,莫尔又在普林斯顿大学继续攻读博士学位,他选择专攻数学逻辑领域。
莫尔一生最大的成就就是参与了APL的开发。不同于一般的编程语言,APL好像就是为脑洞大开的数学家和计算机天才量身定制的,是编程语言的“黑科技”代表。该语言的理念完全不同于其他编程语言,它更加接近数学的思维方式——简洁、高效又有点难懂,它的符号化表达和对数组的操作,可以让程序员更方便地处理复杂的数据结构。虽然APL的鼻祖是肯尼斯·艾弗森(Kenneth E.Iverson),但莫尔对于这门语言的广泛应用功不可没,他让APL在实际计算中更加强大且灵活。APL影响深远,MATLAB、R和NumPy等在科学计算中常用的工具在某种程度上都受到了APL思想的启发。
莫尔不是那种在聚光灯下光彩夺目的人物,他不需要粉丝和掌声,工作时也安静而专注。但他的影响却无处不在,他的贡献值得每一个熟练掌握现代编程语言的开发者铭记。
亚瑟·李·塞谬尔
亚瑟·李·塞缪尔(Arthur Lee Samuel,1901年12月5日—1990年7月29日)堪称机器学习的鼻祖。这位美国计算机科学家不仅提出了“机器学习”这一术语,还亲手编写了让计算机“自己变聪明”的跳棋程序,开启了计算机自我学习的历史。
亚瑟·李·塞缪尔出生在堪萨斯州恩波里亚市。小时候的塞缪尔和别的孩子一样喜欢玩棋类游戏,但不同的是,他长大后不仅想打败人类棋手,还想制造一台能打败人类棋手的机器。他先在麻省理工学院拿到了电气工程学位,随后进入贝尔实验室工作,开启了职业生涯。20世纪40年代,他跳槽到IBM,兴趣迅速从电子工程转向了计算机——这时候,他的头脑中已经不止有电路板,还有一个“人工智能”的雏形。
20世纪50年代初,塞缪尔做了一个非常前卫的决定:他想让一台计算机学会玩跳棋,而且要自己学。这听起来好像是给计算机布置了一项“不可能完成的任务”,毕竟当时的计算机只是个运算机器,怎么可能变成自学成才的棋王呢?但塞缪尔尝试编写了一个跳棋程序,程序一开始只能依靠固定的规则下棋,塞缪尔又给它加上了“自我学习”的功能——它能记住自己的棋局,分析每一步的好坏,并且不断优化自己的策略。这种通过经验学习来变强的方式,就像给计算机装上了“进化大脑”。它不仅能自己下棋,还能“思考”哪一步更有胜算,慢慢精进棋技。
1959年,塞缪尔发表了一篇“脑洞大开”的论文,首次提出了“机器学习”这个概念。他的核心观点是,计算机不只是被动的工具,它们也可以主动从数据中学习。塞缪尔的跳棋程序就是一个活生生的例子——它通过一次次对局和经验积累,逐步变得更强。这一思想彻底颠覆了当时人们对计算机的认知,开启了让计算机从“数据处理员”变成“学习机器”的新时代。塞缪尔认为,机器学习不仅能用于跳棋,还可以应用于许多其他领域,比如模式识别、自然语言处理等。虽然这些想法在当时显得有些“科幻”,但如今,人们每天使用的搜索引擎、语音助手等工具都能证明,塞缪尔的预言已经实现。
塞缪尔从IBM退休后,仍然活跃在教学和科研一线,热衷于将自己的机器学习知识传授给下一代。即使到了晚年,他仍然像个“技术传教士”一样,将机器学习的火种播撒到更多人的心中。
1.人工智能这一术语最早是在哪次会议上被正式提出的?
A.达特茅斯会议
B.图灵大会
C.冯·诺依曼会议
D.洛斯阿拉莫斯会议
2.下列哪个不是人工智能研究的三大主要学派?
A.符号主义
B.联结主义
C.行为主义
D.结构主义
3.行为主义学派的核心理念是什么?
A.符号操作和逻辑推理
B.分布式表示和并行计算
C.感知-动作循环
D.模拟神经网络结构
4.感知器(Perceptron)模型是联结主义的重要成果,由马文·明斯基发明。( )
5.深蓝(Deep Blue)是第一个在标准比赛规则下战胜人类世界冠军的计算机棋手。( )
6.简述“AI寒冬”产生的主要原因。
7.简述符号主义、联结主义和行为主义三大学派的核心理念及其主要区别。
8.结合本章内容,分析大模型时代给人工智能发展带来的机遇与挑战。