人工智能：现代方法·第4版（全2册）最新章节_斯图尔特·罗素著

1.3　人工智能的历史

总结人工智能历史里程碑的快速方法是列出图灵奖得主：马文·明斯基（Marvin Minsky）（1969年图灵奖得主）和约翰·麦卡锡（John McCarthy）（1971年图灵奖得主）定义了基于表示和推理的领域基础；艾伦·纽厄尔（Allen Newell）和赫伯特·西蒙（Herbert Simon）（1975年图灵奖得主）提出了关于问题求解和人类认知的符号模型；爱德华·费根鲍姆（Ed Feigenbaum）和劳伊·雷迪（Raj Reddy）（1994年图灵奖得主）开发了通过对人类知识编码来解决真实世界问题的专家系统；朱迪亚·珀尔（Judea Pearl）（2011年图灵奖得主）提出了通过原则性的方式处理不确定性的概率因果推理技术；最近的是约书亚·本吉奥（Yoshua Bengio）、杰弗里·辛顿（Geoffrey Hinton）和杨立昆（Yann LeCun）（2018年图灵奖得主），他们将“深度学习”（多层神经网络）作为现代计算的关键部分。本节的其余部分将更详细地介绍人工智能历史的每个阶段。

1.3.1　人工智能的诞生（1943—1956）

现在普遍认为由沃伦·麦卡洛克和沃尔特·皮茨（McCulloch and Pitts, 1943）完成的工作是人工智能的第一项研究工作。他们受到皮茨的顾问尼古拉斯·拉舍夫斯基（Nicolas Rashevsky）（1936, 1938）对数学建模工作的启发，选择了3方面的资源构建模型：基础生理学知识和大脑神经元的功能，罗素和怀特海（Whitehead）对命题逻辑的形式化分析，以及图灵的计算理论。他们提出了一种人工神经元模型，其中每个神经元的特征是“开”或“关”，并且会因足够数量的相邻神经元受到刺激而切换为“开”。神经元的状态被认为是“事实上等同于提出其充分激活的命题”。例如，他们证明任何可计算的函数都可以通过一些神经元互相连接的网络来计算，以及所有的逻辑联结词（AND、OR、NOT等）都可以通过简单的网络结构来实现。麦卡洛克和皮茨还表明适当定义的网络可以学习。唐纳德·赫布（Donald Hebb）（Hebb, 1949）示范了用于修改神经元之间连接强度的简单更新规则。他的规则，现在称为 赫布型学习 （Hebbian learning），至今仍是一种有影响力的模式。

哈佛大学的两名本科生马文·明斯基（Marvin Minsky，1927—2016）和迪安·埃德蒙兹（Dean Edmonds）在1950年建造了第一台神经网络计算机——SNARC。SNARC使用了3000个真空管和B-24轰炸机上一个多余的自动驾驶装置来模拟由40个神经元组成的网络。后来，明斯基在普林斯顿大学研究了神经网络中的通用计算。他的博士学位委员会对这类工作是否应该被视为数学持怀疑态度，但据说冯·诺伊曼评价：“如果现在还不能被视为数学，总有一天会的。”

还有许多早期工作可以被描述为人工智能，包括1952年由曼彻斯特大学的克里斯托弗·斯特雷奇（Christopher Strachey）和IBM公司的亚瑟·塞缪尔（Arthur Samuel）分别独立开发的西洋跳棋程序。然而，还是图灵的观点最有影响力。早在1947年，他就在伦敦数学协会（London Mathematical Society）就这一主题发表了演讲，并在其1950年的文章“ Computing Machinery and Intelligence ”中阐明了有说服力的议程。在论文中，他介绍了图灵测试、机器学习、遗传算法和强化学习。如第27章所述，也回答了许多针对人工智能的质疑。他还认为，通过开发学习算法然后教会机器，而不是手工编写智能程序，将更容易创造出人类水平的人工智能。他在随后的演讲中警告说，实现这一目标对人类来说可能不是最好的事情。

1955年，达特茅斯学院的约翰·麦卡锡说服明斯基、克劳德·香农（Claude Shannon）和纳撒尼尔·罗切斯特（Nathaniel Rochester）帮助他召集对自动机理论、神经网络和智能研究感兴趣的美国研究人员。他们于1956年夏天在达特茅斯组织了为期两个月的研讨会。这场研讨会共有10位与会者，其中包括来自卡内基理工学院的艾伦·纽厄尔和赫伯特·西蒙、普林斯顿大学的特伦查德·摩尔（Trenchard More）、IBM的亚瑟·塞缪尔以及来自麻省理工学院的雷·所罗门诺夫（Ray Solomonoff）和奥利弗·赛弗里奇（Oliver Selfridge）。该提案指出：

1956年夏天，我们提议在新罕布什尔州汉诺威的达特茅斯学院进行为期两个月共10人参与的人工智能研讨。这次研讨是基于这样的假设：理论上可以精确描述学习的每个方面或智能的任何特征，从而可以制造机器来对其进行模拟。我们将试图寻找让机器使用语言，形成抽象和概念，解决人类特有的各种问题并改进自身的方法。我们认为，如果一个精心挑选的科学家团队在一整个夏天里共同研究这些问题，则可以在一个或多个方面取得重大进展。

尽管有这种乐观的预测，但达特茅斯的研讨会并没有带来任何突破。纽厄尔和西蒙提出了也许是最成熟的工作——一个称为“逻辑理论家”（Logic Theorist，LT）的数学定理证明系统。西蒙声称：“我们已经发明了一种能够进行非数值思维的计算机程序，从而解决了神圣的身心问题。” 研讨会结束后不久，这个程序就已经能证明罗素和怀特海的 Principia Mathematica 第2章中的大多数定理。据报道，当罗素被告知LT提出了一个比 Principia Mathematica 书中更精巧的证明时，罗素感到很高兴。但《符号逻辑杂志》（ The Journal of Symbolic Logic ）的编辑们没被打动，他们拒绝了由纽厄尔、西蒙和逻辑理论家合著的论文。

1.3.2　早期热情高涨，期望无限（1952—1969）

20世纪50年代的知识界总体上倾向于相信“机器永远不能做 X ”。（见第27章中图灵收集的 X 的详细列表。）人工智能研究人员自然而然地一个接一个地演示 X 以回应。他们特别关注那些被认为能够显示人类智能的任务，包括游戏、谜题、数学和智商测试。约翰·麦卡锡将这段时期称为“瞧，妈，不需要人动手操控！”（Look，Ma，no hands!）时代。

纽厄尔和西蒙继LT成功之后又推出了通用问题求解器，即GPS。与LT不同，GPS从一开始就被设计为模仿人类求解问题的协议。结果表明，在它可以处理的有限类型的难题中，该程序考虑的子目标和可能采取的行为的顺序与人类处理相同问题的顺序类似。因此，GPS可能是第一个体现“人类思维”方式的程序。作为认知模型，GPS和后续程序的成功使得纽厄尔和西蒙（1976）提出了著名的 物理符号系统 （physical symbol system）假说，该假说认为“物理符号系统具有进行一般智能动作的必要和充分方法”。意思是，任何显示出智能的系统（人类或机器）必须通过操作由符号组成的数据结构来运行。之后我们会看到这个假说已经受到了多方面的挑战。

在IBM，纳撒尼尔·罗切斯特和他的同事开发了首批人工智能程序。赫伯特·盖伦特（Herbert Gelernter）（Gelernter, 1959）构造了几何定理证明程序（Geometry Theorem Prover），它能够证明许多数学学生认为相当棘手的定理。这项工作是现代数学定理证明程序的先驱。

从长远来看，这一时期所有探索性工作中，最有影响力的可能是亚瑟·萨缪尔对西洋跳棋的研究。通过使用现在称之为强化学习的方法（见第22章），萨缪尔的程序可以以业余高手的水平进行对抗。因此，他驳斥了计算机只能执行被告知的事情的观点：他的程序很快学会了玩游戏，甚至比其创造者玩得更好。该程序于1956年在电视上演示，给人留下了深刻的印象。和图灵一样，萨缪尔也很难找到使用计算机的机会，他只能晚上工作，使用仍在IBM制造工厂测试场地上还未出厂的计算机。萨缪尔的程序是许多后继系统的前身，如TD-G ammon （Tesauro, 1992）和A lpha G o （Silver et al. , 2016）。TD-G ammon 是世界上最好的西洋双陆棋棋手之一，而A lpha G o 因击败人类世界围棋冠军而震惊世界（见第5章）。

1958年，约翰·麦卡锡为人工智能做出了两项重要贡献。在麻省理工学院人工智能实验室备忘录1号中，他定义了高级语言 Lisp ，Lisp在接下来的30年中成为了最重要的人工智能编程语言。在一篇题为“Programs with Common Sense”的论文中，麦卡锡为基于知识和推理的人工智能系统提出了概念性议案。这篇论文描述了“建议接受者”（Advice Taker），这是一个假想程序，它包含了世界的一般知识，并可以利用它得出行动规划。这个概念可以用简单的逻辑公理来说明，这些逻辑公理足以生成一个开车去机场的规划。该程序还被设计为能在正常运行过程中接受新的公理，从而实现无须重新编程就能够在新领域中运行。因此，“建议接受者”体现了知识表示和推理的核心原则：对世界及其运作进行形式化、明确的表示，并且通过演绎来操作这种表示是很有用的。这篇论文影响了人工智能的发展历程，至今仍有意义。

1958年也是马文·明斯基转到麻省理工学院的一年。然而，他与麦卡锡的最初合作并没有持续。麦卡锡强调形式逻辑中的表示和推理，而明斯基则对程序工作并最终形成反逻辑的观点更感兴趣。1963年，麦卡锡在斯坦福大学建立了人工智能实验室。1965年亚伯拉罕·鲁滨逊（J. A. Robinson）归结原理（一阶逻辑的完备定理证明算法；见第9章）的发现推进了麦卡锡使用逻辑来构建最终“建议接受者”的计划。麦卡锡在斯坦福大学的工作中强调了逻辑推理的通用方法。逻辑的应用包括柯德尔·格林（Cordell Green）的问答和规划系统（Green, 1969b）以及斯坦福研究所（SRI）的Shakey机器人项目，后者（将在第26章中进一步讨论）是第一个展示逻辑推理和物理活动完全集成的项目。

在麻省理工学院，明斯基指导了一批学生，他们选择了一些似乎需要智能才能求解的有限问题。这些有限的领域被称为 微世界 （microworld）。詹姆斯·斯莱格尔（James Slagle）的S aint 程序（Slagle, 1963）能够求解大学一年级课程中典型封闭形式的微积分问题。托马斯·埃文斯（Thomas Evans）的A nalogy 程序（Evans, 1968）能够解决智商测试中常见的几何类比问题。丹尼尔·博布罗（Daniel Bobrow）的S tudent 项目（Bobrow, 1967）能够求解代数故事问题，例如：

如果汤姆获得的客户数量是他投放的广告数量的20%的平方的两倍，已知他投放的广告数量是45，那么汤姆获得的客户数量是多少？

最著名的微世界是 积木世界 （blocks world），由一组放置在桌面上的实心积木组成（或者更常见的是模拟桌面），如图1-3所示。在这个世界中，一个典型的任务是用机械手以某种方式重新排列积木，这个机械手一次可以拿起一块积木。积木世界孕育了戴维·哈夫曼（David Huffman）（Huffman, 1971）的视觉项目、戴维·沃尔茨（David Waltz）（Waltz, 1975）的视觉和约束传播工作、帕特里克·温斯顿（Patrick Winston）（Winston, 1970）的学习理论、特里·温诺格拉德（Terry Winograd）（Winograd, 1972）的自然语言理解程序以及斯科特·法尔曼（Scott Fahlman）（Fahlman, 1974）的规划器。

图1-3 积木世界的场景。S hrdlu （Winograd, 1972）刚刚完成了一个命令——“找到一块比你所持有的积木块更高的积木块，并把它放进盒子里”

建立在麦卡洛克和皮茨提出的神经网络上的早期工作也蓬勃发展。什穆埃尔·温诺格拉德（Shmuel Winograd）和杰克·考恩（Jack Cowan）的研究（Winograd and Cowan, 1963）展示了大量元素如何共同代表一个独立的概念，同时提升稳健性和并行性。赫布的学习方法分别得到了伯尼·维德罗（Bernie Widrow）（Widrow and Hoff, 1960; Widrow, 1962）和弗兰克·罗森布拉特（Frank Rosenblatt）（Rosenblatt, 1962）的改进，他们的网络分别被称为 线性自适应神经网络 （adaline）和 感知机 （perceptron）。 感知机收敛定理 （perceptron convergence theorem）（Block et al ., 1962）指出，学习算法可以调整感知机的连接强度来拟合任何输入数据（前提是存在这样的拟合）。

1.3.3　一些现实（1966—1973）

从一开始，人工智能研究人员对未来成功的预测毫不避讳。下面这句1957年赫伯特·西蒙的名言经常被引用：

我的目的不是使大家感到惊讶或震惊，我可以总结出的最简单的说法是，现在世界上存在着能够思考、学习和创造的机器。此外，它们的这些能力将迅速提高，在可见的未来内，它们能够处理的问题范围将与人类思维的应用范围一样广泛。

虽然“可见的未来”这个词是模糊的，但西蒙也做出了更具体的预测：10年内，计算机将成为国际象棋冠军以及机器将能证明重要的数学定理。实际上，这些预测的实现（或近似实现）用了40年时间，远远超过10年。当初西蒙的过度自信来自于早期人工智能系统在简单示例任务上的出色表现。但是，在几乎所有情况下，这些早期系统在更困难的问题上都失败了。

失败有两个主要原因。第一个主要原因是许多早期人工智能系统主要基于人类如何执行任务的“知情内省型”，而不是基于对任务、解的含义以及算法需要做什么才能可靠地产生解的仔细分析。

第二个主要原因是对人工智能要求解的问题的复杂性缺乏认识。大多数早期的问题求解系统都会尝试组合不同的步骤，直到找到解为止。这一策略最初奏效是因为微世界所包含的对象非常少，因此可能的动作非常少，解的动作序列也非常短。在计算复杂性理论发展完备之前，人们普遍认为“扩展”到更大的问题仅仅是需要更快的硬件和更大的内存。但是当研究人员无法证明涉及几十个事实的定理时，伴随着归结定理证明发展而来的乐观情绪很快就受到了打击。一般而言，程序可以找到解的事实并不意味着该程序具备任何在实践中找到解所需的机制。

无限计算能力的幻想并不局限于求解问题的程序。早期的 机器进化 （machine evolution）［现在称为 遗传编程 （genetic programming）］实验（Friedberg, 1958; Friedberg et al ., 1959）基于绝对正确的信念，即通过对机器代码程序进行一系列适当的小变异，就可以为任何特定任务生成表现良好的程序。这个想法就是通过选择过程来尝试随机突变，并保留似乎有用的突变。尽管使用了长达数千小时的CPU时间，但几乎没有任何进展。

未能处理“组合爆炸”是莱特希尔报告（Lighthill, 1973）中对人工智能的主要批评之一，基于这份报告，英国政府决定在除两所大学外的所有大学中停止支持人工智能研究。（口述传说描绘了一幅稍有不同、更加丰富多彩的画面，但带有政治野心和个人好恶的描述都不是本书的话题。）

此外，产生智能行为的基础结构存在一些根本限制也是导致失败的原因。例如，明斯基和派珀特的著作 Perceptrons （Minsky and Papert, 1969）证明，尽管感知机（一种简单的神经网络形式）被证明可以学习它们能够表示的任何事物，但它们能表示的事物很少。举例来说，我们无法训练双输入感知机来判断它的两个输入是否相同。尽管他们的研究结果并不适用于更复杂的多层网络，但用于神经网络研究的经费很快就减少到几乎为零。讽刺的是，在20世纪80年代和21世纪10年代再次引起神经网络研究巨大复兴的新反向传播学习算法，早在20世纪60年代初已经在其他情景下得到了发展（Kelley, 1960; Bryson, 1962）。

1.3.4　专家系统（1969—1986）

在人工智能研究的前十年提出的问题求解是一种通用搜索机制，试图将基本的推理步骤串在一起，找到完整的解。这种方法被称为 弱方法 （weak method），这种方法虽然很普适，但它不能扩展到大型或困难的问题实例上。弱方法的替代方案是使用更强大的领域特定的知识，这些知识允许更大规模的推理步骤，并且可以更轻松地处理特定专业领域中发生的典型案例。有人可能会说，必须已经差不多知道答案才能解决一个难题。

D endral 程序（Buchanan et al. , 1969）是这种方法的早期例子。它是在斯坦福大学开发的，爱德华·费根鲍姆（曾是赫伯特·西蒙的学生）、布鲁斯·布坎南（Bruce Buchanan，从哲学家转行的计算机科学家）和乔舒亚·莱德伯格（Joshua Lederberg，诺贝尔生理学或医学奖得主，遗传学家）联手解决了从质谱仪提供的信息推断分子结构的问题。该程序的输入包括分子的基本分子式（如C ₆ H ₁₃ NO ₂ ）和质谱，其中质谱给出了分子被电子束轰击时产生的各种碎片的质量。例如，质谱可能在 m = 15处有一个峰，这对应于甲基（CH ₃ ）碎片的质量。

朴素版本的程序生成所有可能的符合分子式的结构，然后预测每个结构在质谱仪中的观测结果，并将其与实际质谱进行比较。正如人们所预期的，这对中等规模的分子来说也是难以处理的。D endral 的研究人员咨询了分析化学家，并发现他们通过寻找质谱中已知的峰模式来工作，这些峰表明分子中的常见子结构。例如，以下规则用于识别酮（C=O）结构（分子量28）：

如果 M 是整个分子的质量，且在 x ₁ 和 x ₂ 处有两个峰，并且

（a） x ₁ + x ₂ = M + 28；（b） x ₁ − 28 是一个高峰；（c） x ₂ − 28 是一个高峰；（d） x ₁ 和 x ₂ 中至

少有一处是高峰，

则该分子含有酮基。

认识到分子包含特定的子结构，可以极大地减少可能候选项的量级。据作者称，D endral 之所以强大，是因为它不是以第一性原理的形式，而是以高效“食谱”的形式体现了质谱的相关知识（Feigenbaum et al. , 1971）。D endra l 的意义在于它是第一个成功的知识密集型系统：它的专业知识来源于大量专用规则。1971年，费根鲍姆和斯坦福大学的其他研究人员开启了启发式编程项目（heuristic programming project，HPP），以此来研究 专家系统 （expert system）的新方法可以在多大程度上应用到其他领域。

接下来的一个主要工作是用于诊断血液感染的M ycin 系统。M ycin 有大约450条规则，它能够表现得和一些专家一样好，甚至比初级医生要好得多。M ycin 与D endral 有两个主要区别。首先，不像D endral 规则，不存在可以推导出M ycin 规则的一般理论模型，M ycin 规则不得不从大量的专家访谈中获得。其次，规则必须反映与医学知识相关的不确定性。M ycin 引入了一种称为 确定性因子 （certainty factor）的不确定性计算（见第13章），这在当时似乎与医生评估证据对诊断影响的方式非常吻合。

第一个成功的商用专家系统R1在数字设备公司（Digital Equipment Corporation，DEC）投入使用（McDermott, 1982），该程序帮助公司配置新计算机系统的订单。截至1986年，它每年为公司节省约4000万美元。到1988年，DEC的人工智能小组已经部署了40个专家系统，而且还有更多的专家系统在开发中。同时期，杜邦公司有100个专家系统在使用，500个在开发。当时几乎每家美国大公司都有自己的人工智能团队，不是在使用专家系统，就是在研究专家系统。

领域知识的重要性在自然语言理解领域也很突出。尽管特里·温诺格拉德的S hrdlu 系统取得了成功，但它的方法并没有扩展到更一般的任务：对于歧义消解之类的问题，它使用了依赖于积木世界中微小范围的简单规则。

包括麻省理工学院的尤金·查尔尼克（Eugene Charniak）和耶鲁大学的罗杰·尚克（Roger Schank）在内的几位研究人员一致认为，强大的语言理解需要关于世界的一般知识以及使用这些知识的一般方法。（尚克进一步声称，“根本就没有语法这回事”，这让很多语言学家感到不安，但确实引发了一场有益的讨论。）尚克和他的学生们建立了一系列的程序（Schank and Abelson, 1977; Wilensky, 1978; Schank and Riesbeck, 1981），这些程序都用于理解自然语言。但是，重点不在于语言本身，而在于用语言理解所需的知识来表示和推理问题。

在真实世界中的广泛应用引发了表示和推理工具的广泛发展。有些是基于逻辑的，例如，Prolog语言在欧洲和日本流行，而P lanner 家族在美国流行。其他人则遵循明斯基的框架（frame）思想（Minsky, 1975），采用了一种更结构化的方法，将有关特定对象和事件类型的事实组合起来，并将这些类型组织成类似于生物分类法的大型分类层次结构。

1981年，日本政府宣布了“第五代计算机”计划，这是一个十年计划，旨在建造运行Prolog的大规模并行智能计算机。按现在的货币系统衡量，预算将超过13亿美元。作为回应，美国成立了微电子与计算机技术公司（Microelectronics and Computer Technology Corporation，MCC），这是一个旨在确保国家竞争力的联盟。在这两个项目中，人工智能都是广泛努力的一部分，包括芯片设计和人机界面研究。在英国，阿尔维（Alvey）报告恢复了被莱特希尔报告取消的资助资金。然而，这些项目都没有在新型的人工智能能力或经济影响方面下实现其宏伟目标。

总的来说，人工智能行业从1980年的几百万美元增长到1988年的数十亿美元，还产生了数百家构建专家系统、视觉系统、机器人以及专门服务于这些目的的软硬件的公司。

但此后不久，经历了一段被称为“人工智能冬天”的时期，许多公司因未能兑现夸张的承诺而停滞。事实证明，为复杂领域构建和维护专家系统是困难的，一部分原因是系统使用的推理方法在面临不确定性时会崩溃，另一部分原因是系统无法从经验中学习。

1.3.5　神经网络的回归（1986—现在）

在20世纪80年代中期，至少有4个不同的团队重新发明了最早在20世纪60年代初期发展起来的 反向传播 （back-propagation）学习算法。该算法被应用于计算机科学和心理学中的许多学习问题， Parallel Distributed Processing 合集（Rumelhart and McClelland, 1986）中的结果的广泛传播引起了极大的轰动。

这些所谓的 联结主义 （connectionist）模型被一些人视为纽厄尔和西蒙的符号模型以及麦卡锡和其他人的逻辑主义方法的直接竞争对手。人类在某种程度上操纵符号似乎是显而易见的——事实上，人类学家特伦斯·迪肯（Terrence Deacon）在其著作《符号化动物》（ The Symbolic Species ）（Deacon, 1997）中指出，这是人类的决定性特征。与此相反，20世纪80年代和21世纪10年代神经网络复兴的领军人物杰弗里·辛顿将符号描述为“人工智能的光以太”（19世纪许多物理学家认为电磁波传播的介质是光以太，但其实这种介质不存在）。事实上，我们在语言中命名的许多概念，经过仔细检查后，都未能获得早期人工智能研究人员希望以公理形式描述逻辑定义的充要条件。联结主义模型可能以一种更流畅和不精确的方式形成内部概念，更适配真实世界的混乱。它们还具备从样本中学习的能力，它们可以将它们的预测输出值与问题的真实值进行比较，并修改参数以减少差异，使它们在未来的样本中更有可能表现良好。

1.3.6　概率推理和机器学习（1987—现在）

专家系统的脆弱性导致了一种新的、更科学的方法，结合了概率而不是布尔逻辑，基于机器学习而不是手工编码，重视实验结果而不是哲学主张。现在更普遍的是，基于现有理论而不是提出全新的理论，基于严格的定理或可靠的实验方法（Cohen, 1995）而不是基于直觉的主张，以及展示与真实世界应用的相关性而不是虚拟的示例。

共享的基准问题集成为了展示进度的标准，包括加利福尼亚大学欧文分校的机器学习数据集库、用于规划算法的国际规划竞赛、用于语音识别的LibriSpeech语料库、用于手写数字识别的MNIST数据集、用于图像物体识别的ImageNet和COCO、用于自然语言问答的SQ u AD、机器翻译的WMT竞赛以及布尔可满足性求解器国际SAT竞赛。

人工智能的创立在一定程度上是对控制理论和统计等现有领域局限性的反抗，但在这一时期，它吸纳了这些领域的积极成果。正如戴维·麦卡莱斯特（David McAllester）（McAllester, 1998）所说：

在人工智能早期，符号计算的新形式（例如框架和语义网络）使大部分经典理论过时，这似乎是合理的。这导致了一种孤立主义，即人工智能在很大程度上与计算机科学的其他领域分离。这种孤立主义目前正在被摒弃。人们认识到，机器学习不应该独立于信息论，不确定推理不应该独立于随机建模，搜索不应该独立于经典优化和控制，自动推理不应该独立于形式化方法和静态分析。

语音识别领域对这种模式进行了说明。20世纪70年代，研究人员尝试了各种不同的架构和方法，许多是相当暂时和脆弱的，并且只能处理几个精心挑选的例子。在20世纪80年代，使用 隐马尔可夫模型 （hidden Markov model，HMM）的方法开始主导这一领域。HMM有两个相关的方面。首先，它们基于严格的数学理论。这使得语音研究人员能够在其他领域数十年数学成果的基础上进行开发。其次，它们是在大量真实语音数据的语料库上训练而产生的。这确保了健壮性，并且在严格的盲测中，HMM的分数稳步提高。因此，语音技术和手写体字符识别的相关领域向广泛的工业和消费级应用过渡。注意，并没有科学证据表明人类使用HMM识别语音，HMM只是为理解和求解问题提供了一个数学框架。然而，在1.3.8节中我们将看到，深度学习已经破坏了这种舒适的叙述。

1988年是人工智能与统计学、运筹学、决策论和控制理论等其他领域相联系的重要一年。朱迪亚·珀尔的 Probabilistic Reasoning in Intelligent Systems （Pearl, 1988）使概率和决策论在人工智能中得到了新的认可。珀尔对贝叶斯网络的发展产生了一种用于表示不确定的知识的严格而有效的形式体系，以及用于概率推理的实用算法。第12～16章涵盖了这个领域，此外最近的发展大大提升了概率形式体系的表达能力，第20章描述了从数据中学习 贝叶斯网络 （Bayesian network）和相关模型的方法。

1988年的第二个主要贡献是理查德·萨顿（Rich Sutton）的工作，他将强化学习（20世纪50年代被用于亚瑟·塞缪尔的西洋跳棋程序中）与运筹学领域开发的马尔可夫决策过程（Markov decision processe，MDP）联系起来。随后，大量工作将人工智能规划研究与MDP联系起来，强化学习领域在机器人和过程控制方面找到了应用，并获得了深厚的理论基础。

人工智能对数据、统计建模、优化和机器学习的新认识带来的结果是，计算机视觉、机器人技术、语音识别、多智能体系统和自然语言处理等子领域逐渐统一，此前这些子领域在某种程度上已经脱离了核心人工智能。重新统一的过程在应用方面（例如，在此期间实用机器人的部署大大扩展）和关于人工智能核心问题更好的理论理解方面都产生了显著的效用。

1.3.7　大数据（2001—现在）

计算能力的显著进步和互联网的创建促进了巨大数据集的创建，这种现象有时被称为 大数据 （big data）。这些数据集包括数万亿字的文本、数十亿的图像、数十亿小时的语音和视频，以及海量的基因组数据、车辆跟踪数据、点击流数据、社交网络数据等。

这导致了专为利用非常大的数据集而设计的学习算法的开发。通常，这类数据集中的绝大多数例子都没有标签。例如，在雅让斯基关于词义消歧的著作（Yarowsky, 1995）中，出现的一个词（如“plant”），并没有在数据集中标明这是指植物还是工厂。然而，如果有足够大的数据集，合适的学习算法在识别句意的任务上可以达到超过96%的准确率。此外，班科和布里尔认为，将数据集的规模增加两到三个数量级所获得的性能提升会超过调整算法带来的性能提升（Banko and Brill, 2001）。

类似的现象似乎也发生在计算机视觉任务中，例如填补照片中的破洞（要么是由损坏造成的，要么是挖除前朋友造成的）。海斯和埃弗罗斯（Hays and Efros, 2007）开发了一种巧妙的方法，从类似的图像中混合像素。他们发现，该技术在仅包含数千幅图像的数据库中效果不佳，但在拥有数百万幅图像的数据库中，该技术超过了质量阈值。不久之后，ImageNet数据库（Deng et al. , 2009）中可用的数千万幅图像引发了计算机视觉领域的一场革命。

大数据的可用性和向机器学习的转变帮助人工智能恢复了商业吸引力（Havenstein, 2005; Halevy et al. , 2009）。大数据是2011年IBM的Watson系统在《危险边缘》（ Jeopardy! ）问答游戏中战胜人类冠军的关键因素，这一事件深深影响了公众对人工智能的看法。

1.3.8　深度学习（2011—现在）

深度学习 （deep learning）是指使用多层简单的、可调整的计算单元的机器学习。早在20世纪70年代，研究人员就对这类网络进行了实验，并在20世纪90年代以 卷积神经网络 （convolutional neural network）（LeCun et al. , 1995）的形式在手写数字识别方面取得了一定的成功。然而，直到2011年，深度学习方法才真正开始流行起来，首先是在语音识别领域，然后是在视觉物体识别领域。

在2012年的ImageNet竞赛中，需要将图像分类为1000个类别之一（犰狳、书架、开瓶器等）。多伦多大学杰弗里·辛顿团队开发的深度学习系统（Krizhevsky et al. , 2013）比以前基于手工特征的系统有了显著改进。从那时起，深度学习系统在某些视觉任务上的表现超过了人类，但在其他一些任务上还显落后。在语音识别、机器翻译、医疗诊断和博弈方面也有类似的进展。A lphaGo （Silver et al. , 2016, 2017, 2018）之所以能够战胜人类顶尖的围棋棋手，是因为它使用了深度网络来表示评价函数。

这些非凡的成功使学生、公司、投资者、政府、媒体和公众对人工智能的兴趣重新高涨。似乎每周都有新的人工智能应用接近或超过人类表现的消息，通常伴随着加速成功或人工智能新寒冬的猜测。

深度学习在很大程度上依赖于强大的硬件，一个标准的计算机CPU每秒可以进行10 ⁹ 或10 ¹⁰ 次运算。运行在特定硬件（例如GPU、TPU或FPGA）上的深度学习算法，每秒可能进行10 ¹⁴ ～10 ¹⁷ 次运算，主要是高度并行化的矩阵和向量运算。当然，深度学习还依赖于大量训练数据的可用性，以及一些算法技巧（见第21章）。

1.3 人工智能的历史

1.3.1 人工智能的诞生（1943—1956）

1.3.2 早期热情高涨，期望无限（1952—1969）

1.3.3 一些现实（1966—1973）

1.3.4 专家系统（1969—1986）

1.3.5 神经网络的回归（1986—现在）

1.3.6 概率推理和机器学习（1987—现在）

1.3.7 大数据（2001—现在）

1.3.8 深度学习（2011—现在）