购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 人工智能的基础

在本节中,我们将简要介绍为人工智能提供思想、观点和技术的学科的历史。像任何历史一样,本书只关注少数人物、事件和思想,而忽略其他同样重要的。我们围绕一系列问题来组织这段历史。我们不希望带给读者这样一种印象:这些问题是各个学科唯一要解决的问题,或者各个学科都将人工智能作为最终成果而努力。

1.2.1 哲学

可以使用形式化规则得出有效结论吗?

思维是如何从物质大脑中产生的?

知识从何而来?

知识如何导致行为?

亚里士多德(Aristotle,公元前384—公元前322)制定了一套精确的法则来统御思维的理性部分,他是历史上第一位这样做的哲学家。他发展了一套非正式的三段论系统进行适当的推理,该系统原则上允许人们在给定初始前提下机械地得出结论。

拉蒙·鲁尔(Ramon Llull,约1232—1315)设计了一种推理系统,发表为 Ars Magna (即 The Great Art )(Llull, 1305) [1] 。鲁尔试图使用实际的机械设备——一组可以旋转成不同排列的纸盘——实现他的系统。

大约在1500年,列奥纳多·达·芬奇(Leonardo da Vinci,1452—1519)设计了一台机械计算器,虽然当时并未制造,但最近的重构表明该设计是可行的。第一台已知的计算器是在1623年前后由德国科学家威廉·席卡德(Wilhelm Schickard,1592—1635)制造的。布莱兹·帕斯卡(Blaise Pascal,1623—1662)于1642年建造了滚轮式加法器(Pascaline),并写道:“它产生的效用似乎比动物的所有行为更接近思维。”戈特弗里德·威廉·莱布尼茨(Gottfried Wilhelm Leibniz,1646—1716)制造了一台机械设备,旨在根据概念而非数值进行操作,但其应用范围相当有限。托马斯·霍布斯(Thomas Hobbes,1588—1679)在《利维坦》( Leviathan )一书中提出了会思考的机器的想法,用他的话说就是一种“人造动物”,设想“心脏无非就是发条,神经只是一些游丝,而关节不过是一些齿轮”。他还主张推理就像是数值计算,认为“推理就是一种计算,也就是相加减”。

有观点认为,思维至少在某种程度上是根据逻辑或数值规则运作的,可以建立模仿其中的一些规则的物理系统。也有观点说,思维本身就是这样一个物理系统。勒内·笛卡儿(René Descartes,1596—1650)首次清晰地讨论了思维与物质之间的区别。他指出,思维的纯粹物理概念似乎没有给自由意志留下多少空间。如果思维完全受物理法则支配,那么它拥有的自由意志不会比一块“决定”往下掉的石头多。笛卡儿是 二元论 (dualism)的支持者。他认为,人类思维(灵魂或者精神)的一部分处于自然之外,不受物理定律的约束。但是,动物不具备这种二元特性,它们可以被视为机器。

唯物主义 (materialism)是二元论的一种替代,它认为大脑根据物理定律的运作构成了思维。自由意志仅仅是实体对可选决策的感知。 物理主义 (physicalism)和 自然主义 (naturalism)这两个术语也被用于描述这类与超自然观点相反的观点。

如果给定可以操纵知识的实体思维,接下来的问题就是建立知识的来源。 经验主义 (empiricism)运动始于弗朗西斯·培根(Francis Bacon,1561—1626)的《新工具》( Novum Organum [2] 一书,并以约翰·洛克(John Locke,1632—1704)的名言“知识归根到底都来源于经验”为特征。

大卫·休谟(David Hume,1711—1776)的《人性论》( A Treatise of Human Nature )(Hume, 1739)提出了现在称为 归纳法 (induction)的原则:通过暴露要素之间的重复联系获得一般规则。

以路德维希·维特根斯坦(Ludwig Wittgenstein,1889—1951)和伯特兰·罗素(Bertrand Russell,1872—1970)的工作为基础,著名的维也纳学派(Sigmund, 2017)——一群在20世纪20年代及20世纪30年代聚集在维也纳的哲学家和数学家——发展了 逻辑实证主义 (logical positivism)学说。该学说认为,所有知识都可以通过逻辑理论来描述,逻辑理论最终与对应于感知输入的 观察语句 (observation sentence)相联系。因此,逻辑实证主义结合了理性主义和经验主义。

鲁道夫·卡纳普(Rudolf Carnap,1891—1970)和卡尔·亨佩尔(Carl Hempel,1905—1997)的 确证理论 (confirmation theory)试图通过量化应分配给逻辑语句的信念度来分析从经验中获取知识,信念度的取值基于逻辑语句与确证或否定它们的观察之间的联系。卡纳普的《世界的逻辑构造》( The Logical Structure of the World )(Carnap, 1928)也许是最先提出将思维视为计算过程这一理论的著作。

思维的哲学图景中最后一个要素是知识与动作之间的联系。这个问题对人工智能来说至关重要,因为智能不仅需要推理,还需要动作。而且,只有理解了怎样的行为是合理的,才能理解如何构建行为是合理的(或理性的)智能体。

亚里士多德在《论动物的运动》( De Motu Animalium )中指出,动作的合理性是通过目标和动作结果的知识之间的逻辑联系来证明的:

但是,思考有时伴随着行为,有时却没有,有时伴随着行动,有时却没有,这是如何发生的?这看起来和对不变的对象进行推理和推断时发生的情况几乎是一样的。但是在那种情况下,结局是一个推测性的命题……而在这里,由两个前提得出的结论是一个行为……我需要覆盖物;斗篷是一种覆盖物。我需要一件斗篷。我需要什么,我必须做什么;我需要一件斗篷。我必须做一件斗篷。结论是,“我必须做一件斗篷”,这是一个行为。

在《尼各马可伦理学》( Nicomachean Ethics )(第三卷第3章,1112b)中,亚里士多德进一步阐述了这个主题,并提出了一个算法:

我们考虑的不是目的,而是实现目的的手段。医生并不考虑是否要使一个人健康,演说家并不考虑是否要去说服听众……他们是先确定一个目的,然后考虑用什么手段和方式来达到目的。如果有几种手段,他们考虑的就是哪种手段最能实现目的。如果只有一种手段,他们考虑的就是怎样利用这一手段去达到目的,这一手段又需要通过哪种手段来获得。这样,他们就在所发现的东西中一直追溯到最初的东西……分析的终点也就是起点。如果恰巧遇到不可能的事情,例如需要钱却得不到钱,那么就放弃这种考虑。而所谓可能的事情,就是以我们自身能力可以做到的那些事情。

2300年后,纽厄尔和西蒙在他们的 通用问题求解器 (General Problem Solver)程序中实现了亚里士多德的算法。我们现在将其称为贪婪回归规划系统(见第11章)。在人工智能理论研究的前几十年中,基于逻辑规划以实现确定目标的方法占据主导地位。

纯粹从行为的角度来思考实现目标通常是有用的,但在某些情况是不适用的。例如,如果有几种不同的方法可以实现目标,我们就需要某种方法来进行选择。更重要的是,确定性地实现一个目标可能是无法做到的,但某些行为仍然必须被实施。那该如何决策呢?安托万·阿尔诺(Antoine Arnauld)(Arnauld, 1662)分析了赌博中的理性决策概念,提出了一种量化公式,可以最大化期望收入的货币价值。后来,丹尼尔·伯努利(Daniel Bernoulli)(Bernoulli, 1738)引入了更普适的 效用 (utility)概念,可以体现结果的内在主观价值。如第16章所述,在不确定性下,理性决策的现代概念涉及最大化期望效用。

在道德和公共政策方面,决策者必须考虑多个个体的利益。杰里米·边沁(Jeremy Bentham)(Bentham, 1823)和约翰·斯图尔特·穆勒(John Stuart Mill)(Mill, 1863)提出了 功利主义 (utilitarianism)思想:基于效用最大化的理性决策应该适用于人类活动的所有领域,包括代表许多个体做出公共政策的决策。功利主义是一种特殊的 结果主义 (consequentialism),行为的预期结果决定了正确与否。

相反,伊曼努尔·康德(Immanuel Kant)在1785年提出了一种基于规则或 义务伦理学 (deontological ethics)的理论。在该理论中,“做正确的事”不是由结果决定的,而是由管理可行行为的普适社会法则所决定的,可行行为包括“不要撒谎”“不要杀人”等。因此,如果期望的好处大于坏处,那么功利主义者可以撒一个善意的谎言,但康德主义者则不能这样做,因为撒谎本质上就是错误的。穆勒承认规则的价值,但将其理解为基于第一性原理对结果进行推理的高效决策程序。许多现代人工智能系统正是采用了这种方法。

1.2.2 数学

得出有效结论的形式化规则是什么?

什么可以被计算?

如何使用不确定的信息进行推理?

哲学家们提出了人工智能的一些基本理念,但人工智能要成为正规科学,需要逻辑和概率的数学化,并引入一个新的数学分支——计算。

形式化逻辑 (formal logic)的思想可以追溯到古希腊、古印度和古代中国的哲学家,但它的数学发展真正始于乔治·布尔(George Boole,1815—1864)的工作。布尔提出了命题和布尔逻辑的细节(Boole, 1847)。1879年,戈特洛布·弗雷格(Gottlob Frege,1848—1925)将布尔逻辑扩展到包括对象和关系,创建了沿用至今的一阶逻辑 。一阶逻辑除了在人工智能研究的早期发挥核心作用外,还激发了哥德尔和图灵的工作,这些工作支撑了计算本身。

概率 (probability)论可以视为信息不确定情况下的广义逻辑,这对人工智能来说是非常重要的考虑。吉罗拉莫·卡尔达诺(Gerolamo Cardano,1501—1576)首先提出了概率的概念,并根据赌博事件的可能结果对其进行了刻画。1654年,布莱兹·帕斯卡(Blaise Pascal,1623—1662)在给皮埃尔·费马(Pierre Fermat,1601—1665)的信中展示了如何预测一个未完成的赌博游戏的结局,并为赌徒分配平均收益。概率很快成为定量科学的重要组成部分,用于处理不确定的度量和不完备的理论。雅各布·伯努利(Jacob Bernoulli,1654—1705,丹尼尔·伯努利的叔叔)、皮埃尔·拉普拉斯(Pierre Laplace,1749—1827)等人发展了这一理论,并引入了新的统计方法。托马斯·贝叶斯(Thomas Bayes,1702—1761)提出了根据新证据更新概率的法则。贝叶斯法则是人工智能系统的重要工具。

概率的形式化结合数据的可用性,使 统计学 (statistics)成为了一个新研究领域。最早的应用之一是1662年约翰·格兰特(John Graunt)对伦敦人口普查数据的分析。罗纳德·费舍尔(Ronald Fisher)被认为是第一位现代统计学家,他汇总了概率、实验设计、数据分析和计算等思想(Fisher, 1922)。在1919年,他坚称,如果没有机械计算器“百万富翁”(M illionaire ,第一个可以做乘法的计算器),他就无法进行工作,尽管这台计算器的成本远远超过了他的年薪(Ross, 2012)。

计算的历史与数字的历史一样古老,但用于计算最大公约数的欧几里得算法被认为是第一个非平凡的 算法 (algorithm)。“算法”一词源自一位9世纪的数学家穆罕默德·本·穆萨·阿尔·花剌子模(Muhammad ibn Musa al-Khwarizmi),他的著作还将阿拉伯数字和代数引入了欧洲。布尔等人讨论了逻辑演绎的算法,到19世纪末,人们开始努力将一般的数学推理形式化为逻辑演绎。

库尔特·哥德尔(Kurt Gödel,1906—1978)表明,虽然存在一种有效方法能够证明弗雷格和罗素的一阶逻辑中的任何真实陈述,但是一阶逻辑无法满足表征自然数所需的数学归纳原理。1931年,哥德尔证明关于演绎的限制确实存在。哥德尔的 不完全性定理 (incompleteness theorem)表明,在任何像皮亚诺算术(Peano arithmetic,自然数的基本理论)这样强的形式化理论中,必然存在一些没有证明的真实陈述。

这个基本结果也可以解释为作用于整数上的某些函数无法用算法表示,即它们无法被计算。这促使艾伦·图灵(Alan Turing,1912—1954)试图准确地描述哪些函数是 可计算的 ,即能够通过有效的过程进行计算。丘奇-图灵论题(Church-Turing thesis)提出将图灵机(Turing, 1936)可计算的函数作为可计算性的一般概念。图灵还表明,存在某些任何图灵机都无法计算的函数。例如,没有一台机器能够在 广义上 判断给定程序是会根据给定的输入返回答案,还是永远运行下去。

尽管 可计算性 (computability)对理解计算很重要,但 易处理性 (tractability)的概念对人工智能的影响更大。粗略地说,如果解决一个问题实例所需的时间随着问题规模呈指数增长,那么这个问题就是难处理的。在20世纪60年代中期,复杂性的多项式增长和指数增长之间的区别首次被强调(Cobham, 1964; Edmonds, 1965)。因为指数级增长意味着即使是中等规模的问题实例也无法在合理的时间内解决,所以易处理性很重要。

由斯蒂芬·库克(Stephen Cook)(Cook, 1971)和理查德·卡普(Richard Karp)(Karp, 1972)开创的 NP完全性 (NP-completeness)理论为分析问题的易处理性提供了基础:任何可以归约到NP完全的问题都可能是难处理的。(尽管尚未证明NP完全问题一定是难处理的,但大多数理论家都相信这一点。)这些结果与大众媒体对第一台计算机的乐观态度——“比爱因斯坦还快的电子超级大脑!”——形成了鲜明对比。尽管计算机的速度在不断提高,但对资源的谨慎使用和必要的缺陷将成为智能系统的特征。粗略地说,世界是一个 极大 的问题实例!

1.2.3 经济学

我们应该如何根据自己的偏好做出决定?

当其他人可能不支持时,我们应该怎么做?

当收益可能在很遥远的未来时,我们应该怎么做?

经济学起源于1776年,当时亚当·斯密(Adam Smith,1723—1790)发表了《国富论》(全名为《国民财富的性质和原因的研究》, An Inquiry into the Nature and Causes of the Weallth of Nations )。斯密建议将经济视为由许多关注自身利益的独立主体组成,但他并不主张将金融贪婪作为道德立场。他在较早的著作《道德情操论》( The Theory of Moral Sentiments )(Smith, 1759)开篇就指出,对他人福祉的关注是每个个体利益的重要组成部分。

大多数人认为经济学就是关于钱的,而实际上第一个对不确定性下的决策进行数学分析的是安托万·阿尔诺(Arnauld, 1662)的最大期望值公式,而这一分析也的确是与赌注的货币价值相关。丹尼尔·伯努利(Bernoulli, 1738)注意到,这个公式似乎不适用于更大规模的金钱,例如对海上贸易远征的投资。于是,他提出了基于期望效用最大化的原则,并指出额外货币的边际效用会随着一个人获得更多货币而减少,从而解释了大众的投资选择。

里昂·瓦尔拉斯(Léon Walras,1834—1910)为效用理论提供了一个更为普适的基础,即对任何结果(不仅仅是货币结果)的投机偏好。弗兰克·拉姆齐(Frank Ramsey)(Ramsey, 1931)以及后来约翰·冯·诺伊曼(John von Neumann)和奥斯卡·摩根斯特恩(Oskar Morgenstern)在他们的著作《博弈论与经济行为》( The Theory of Games and Economic Behavior )(Neumann and Morgenstern, 1944)中对这一理论进一步改进。经济学不再是研究金钱的学科,而是对欲望和偏好的研究。

决策论 (decision theory)结合了概率论和效用理论,为在不确定性下做出个体决策(经济的或其他的)提供了一个形式化完整的框架,也就是说,概率适当地描述了决策者所处的环境。这适用于“大型”经济体,在这种经济体中,每个主体都无须关注其他独立主体的行为。对“小型”经济体而言更像是一场 博弈 (game):一个参与者的行为可以显著影响另一个参与者的效用(积极或消极的)。冯·诺依曼和摩根斯特恩对 博弈论 (game theory)的发展[也可以参考(Luce and Raiffa, 1957)]得出了令人惊讶的结果,即对于某些博弈,理性智能体应该采用随机(或至少看起来是随机)的策略。与决策论不同,博弈论并没有为行为的选择提供明确的指示。人工智能中涉及多个智能体的决策将在 多智能体系统 (multiagent system)的主题下探讨(第18章)。

经济学家(除了一些例外)没有解决上面列出的第三个问题:当行为的收益不是立即产生的,而是在几个 连续 的行为后产生时,应该如何做出理性的决策。这个课题在 运筹学 (operations research)的领域探讨,运筹学出现在第二次世界大战期间英国对雷达安装的优化工作中,后来发展出了无数民用应用。理查德·贝尔曼(Richard Bellman)(Bellman, 1957)的工作将一类序贯决策问题进行了形式化,称为 马尔可夫决策过程 (Markov decision process),我们将在第17章研究该问题,并在第22章以 强化学习 (reinforcement learning)的主题研究该问题。

经济学和运筹学的工作对理性智能体的概念做出了很大贡献,但是多年来的人工智能研究是沿着完全独立的道路发展的。原因之一是做出理性决策显然是复杂的。人工智能的先驱赫伯特·西蒙(Herbert Simon, 1916—2001)凭借其早期工作在1978年获得了诺贝尔经济学奖,他指出基于 满意度 (satisficing)的决策模型(做出“够好”的决策,而不是费力地计算最优决策)可以更好地描述实际的人类行为(Simon, 1947)。自20世纪90年代以来,人工智能的决策理论技术重新引起了人们的兴趣。

1.2.4 神经科学

大脑如何处理信息?

神经科学 (neuroscience)是对神经系统(尤其是对大脑)的研究。尽管大脑进行思考的确切方式是科学的奥秘之一,但大脑确实是能思考的现实已经被人们接受了数千年,因为有证据表明,对头部的强烈打击会导致精神丧失。人们也早就知道人的大脑在某种程度上是不同的,大约在公元前335年,亚里士多德写道:“在所有动物中,人类的大脑与身体大小的比例最大。” 然而,直到18世纪中叶,大脑才被广泛认为是意识的所在地。在此之前,意识所在地的候选位置包括心脏和脾脏。

1861年,保罗·布罗卡(Paul Broca,1824—1880)对脑损伤患者中的失语症(语言缺陷)进行了调查研究,他在大脑左半球发现一个局部区域(现在被称为布罗卡氏区域)负责语音的产生,从而开始了对大脑功能组织的研究。 那时,人们已经知道大脑主要由神经细胞或 神经元 (neuron)组成,但直到1873年,卡米洛·高尔基(Camillo Golgi,1843—1926)才发明了一种可以观察单个神经元的染色技术(见图1-1)。圣地亚哥·拉蒙-卡哈尔(Santiago Ramon y Cajal,1852—1934)在神经组织的开创性研究中使用了该技术。 现在人们普遍认为认知功能是由这些结构的电化学反应产生的。也就是说, 一组简单的细胞就可以产生思维、行为和意识 。如约翰·希尔勒(John Searle)(Searle, 1992)的精辟名言所说: 大脑产生 思想

图1-1 神经细胞或神经元的部分。每个神经元都由一个包含神经核的细胞体或体细胞组成。许多从细胞体中分支出来的纤维状被称为树突,其中的长纤维被称为轴突。轴突伸展的距离很长,比这张图上显示的要长得多。轴突一般长1厘米(是细胞体直径的100倍),但也可以达到1米。一个神经元在称为突触的连接处与其他10~100 000个神经元建立连接。信号通过复杂的电化学反应从一个神经元传递到其他神经元。这些信号可以在短期内控制大脑活动,还可以长期改变神经元的连通性。这些机制被认为是大脑学习的基础。大多数信息都在大脑皮质(大脑的外层)中处理的。基本的组织单元似乎是直径约0.5毫米的柱状组织,包含约20 000个神经元,并延伸到整个皮质(人类皮质深度约4毫米)

现在,我们有了一些关于大脑区域和身体部位之间映射关系的数据,这些部位是受大脑控制或者是接收感官输入的。这样的映射可以在几周内发生根本性的变化,而有些动物似乎具有多个映射。此外,我们还没有完全理解当一个区域受损时其他区域是如何接管其功能的。而且,关于个人记忆是如何存储的,或者更高层次的认知功能是如何运作的,目前几乎没有任何相关理论。

1929年,汉斯·伯杰(Hans Berger)发明脑电图仪(EEG),开启了对完整大脑活动的测量。功能磁共振成像(fMRI)的发展(Ogawa et al. , 1990; Cabeza and Nyberg, 2001)为神经科学家提供了前所未有的大脑活动的详细图像,从而使测量能够以有趣的方式与正在进行的认知过程相对应。神经元活动的单细胞电记录技术和 光遗传学 (optogenetics)方法的进展(Crick, 1999; Zemelman et al ., 2002; Han and Boyden, 2007)增强了这些功能,从而可以测量和控制被修改为对光敏感的单个神经元。

用于传感和运动控制的 脑机接口 (brain-machine interface)的发展(Lebedev and Nicolelis, 2006)不仅有望恢复残疾人的功能,还揭示了神经系统许多方面的奥秘。这项工作的一项重要发现是,大脑能够自我调整,使自己成功与外部设备进行交互,就像对待另一个感觉器官或肢体一样。

大脑和数字计算机有不同的特性。如图1-2所示,计算机的周期时间比大脑快一百万倍。虽然与高端个人计算机相比,大脑拥有更多的存储和互连,但最大的超级计算机在某些指标上已经与大脑相当。未来主义者充分利用这些数字,指出了一个即将到来的 奇点 (singularity),在这个奇点上计算机达到了超越人类的性能水平(Vinge, 1993; Kurzweil, 2005; Doctorow and Stross, 2012),然后会进一步迅速提高。但是比较原始数字并不是特别有用。即使计算机的容量到达无限也无济于事,在理解智能方面仍然需要进一步的概念突破(见第28章)。粗略地说,如果没有正确的理论,更快的机器只会更快地给出错误的答案。

图1-2 领先的超级计算机Summit(Feldman, 2017)、2019年的典型个人计算机和人类大脑的粗略对比。数千年来,人类大脑的能力并没有发生太大变化,而超级计算机的计算能力已经从20世纪60年代的百万次浮点运算(MFLOP)提高到了20世纪80年代的十亿次浮点运算(GFLOP)、20世纪90年代的万亿次浮点运算(TFLOP)、2008年的千万亿次浮点运算(PFLOP)以及2018年的百亿亿次浮点运算(exaFLOP,1 exaFLOP = 10 18 次浮点运算/秒)

1.2.5 心理学

人类和动物是如何思考和行为的?

科学心理学的起源通常可以追溯到德国物理学家赫尔曼·冯·赫尔姆霍茨(Hermann von Helmholtz,1821—1894)和他的学生威廉·温特(Wilhelm Wundt,1832—1920)的工作。赫尔姆霍茨将科学方法应用于人类视觉的研究,他的 Handbook of Physiological Optics 被描述为“关于人类视觉的物理学和生理学的最重要的专著”(Nalwa, 1993, p.15)。1879年,温特在莱比锡大学开设了第一个实验心理学实验室。温特坚持严格控制的实验,他实验室的工作人员在进行感知或联想任务的同时,内省他们的思维过程。严格的控制在很大程度上帮助心理学成为了一门科学,但是数据的主观性质使得实验者不太可能会推翻自己的理论。

另外,研究动物行为的生物学家缺乏内省的数据,于是发展了一种客观的方法,赫伯特·詹宁斯(Herbert S. Jennings)(Jennings, 1906)在他有影响力的著作 Behavior of the Lower Organisms 中对此进行了描述。约翰·沃森(John Watson,1878—1958)领导的 行为主义 (behaviorism)运动将这一观点应用于人类,以内省无法提供可靠证据为由,拒绝任何涉及心理过程的理论。行为主义者坚持只研究施加动物的感知(或 刺激 )及其产生的行为(或 反应 )的客观度量。行为主义发现了很多关于老鼠和鸽子的知识,但是在理解人类方面却不太成功。

认知心理学 (cognitive psychology)认为大脑是一个信息处理设备,这至少可以追溯到威廉·詹姆斯(William James,1842—1910)的著作。赫尔姆霍茨也坚持认为感知涉及一种无意识的逻辑推断形式。在美国,认知观点在很大程度上被行为主义所掩盖,但在弗雷德里克·巴特利特(Frederic Bartlett,1886—1969)所领导的剑桥大学应用心理学系,认知模型得以蓬勃发展。巴特利特的学生和继任者肯尼斯·克雷克(Kenneth Craik)(Craik, 1943)所著的 The Nature of Explanation 强有力地重新确立了诸如信念和目标之类的“精神”术语的合法性,认为它们就像用压力和温度来讨论气体一样科学,尽管气体是由既不具有压力又不具有温度的分子组成。

克雷克指出了知识型智能体的3个关键步骤:(1)刺激必须转化为一种内在表示;(2)认知过程处理表示,从而产生新的内部表示;(3)这些过程反过来又被重新转化为行为。他清晰地解释了为什么这是一个良好的智能体设计:

如果有机体拥有一个“小规模的模型”,建模了外部现实及其在脑海中可能采取的行为,那么它就能够尝试各种选择,得出哪个是最好的,并在未来出现情况之前加以应对。有机体可以利用过去的知识处理现在和未来的情况,并在各方面以更全面、更安全、更有力的方式应对紧急情况。(Craik, 1943)

继1945年克雷克死于自行车事故之后,唐纳德·布劳德本特(Donald Broadbent)继续从事这一工作。布劳德本特的 Perception and Communication (Broadbent, 1958)是最早将心理现象建模为信息处理的著作之一。与此同时的美国,计算机建模的发展导致了 认知科学 (cognitive science)领域的诞生。这个领域可以说是开始于1956年9月麻省理工学院的一次研讨会上,并且仅仅两个月后,人工智能本身就“诞生”了。

在研讨会上,乔治·米勒(George Miller)发表了“ The Magic Number Seven ”,诺姆·乔姆斯基(Noam Chomsky)发表了“ Three Models of Language ”,艾伦·纽厄尔和赫伯特·西蒙发表了“ The Logic Theory Machine ”。这3篇影响广泛的论文分别展示了如何使用计算机模型处理记忆、语言和逻辑思维的心理学问题。现在心理学家普遍认为“认知理论应该就像一个计算机程序”(Anderson, 1980),也就是说,认知理论应该从信息处理的角度来描述认知功能的运作。

为了综述目的,我们将 人机交互 (human-computer interaction,HCI)领域归于心理学下。人机交互的先驱之一道格·恩格巴特(Doug Engelbart)倡导 智能增强 (intelligence augmentation)的理念(IA而非AI)。他认为,计算机应该增强人类的能力,而不是完全自动化人类的任务。1968年,在恩格巴特的“所有演示之母”(mother of all demos)上首次展示了计算机鼠标、窗口系统、超文本和视频会议,所有这些都是为了展示人类知识工作者可以通过某些智能增强来共同完成工作。

今天,我们更倾向于将IA和AI视为同一枚硬币的两面,前者强调人类控制,而后者强调机器的智能行为,都是机器有利于人类所必需的。

1.2.6 计算机工程

如何构建高效的计算机?

现代数字电子计算机是由陷入第二次世界大战中的3个国家的科学家们独立且几乎同时发明的。第一台 可操作的 计算机是由艾伦·图灵的团队于1943年建造的机电希思·罗宾逊(Heath Robinson ),它的唯一目的是破译德国的情报。1943年,同一小组开发了Colossus,这是一款基于真空管的强大通用机器。 [3] 第一台可操作的 可编程 计算机是Z-3,是德国工程师康拉德·楚泽(Konrad Zuse)在1941年发明的。楚泽还发明了浮点数和第一个高级编程语言Plankalkül。第一台 电子 计算机ABC是约翰·阿塔纳索夫(John Atanasoff)和他的学生克利福德·贝里(Clifford Berry)在1940年至1942年间在爱荷华州立大学组装的。阿塔纳索夫的研究很少得到支持或认可,而ENIAC作为宾夕法尼亚大学秘密军事项目的一部分被证明是现代计算机最有影响力的先驱。ENIAC的开发团队包括了约翰·莫奇利(John Mauchly)和约翰·普雷斯伯·埃克特(J. Presper Eckert)等工程师。

从那时起,每一代计算机硬件更新都带来了速度和容量的提升以及价格的下降,这是 摩尔定律 (Moore’s law)所描述的趋势。直到2005年之前,大约每18个月CPU的性能就会翻一番,但功耗问题导致制造商开始增加CPU的核数而不是提高CPU的时钟频率。目前的预期是,未来性能的增加将来自于大量的并行性,这体现了与大脑特性奇妙的一致性。在应对不确定的世界时,基于这一理念设计硬件:不需要64位的数字精度,只需16位(如 bfloat16 格式)甚至8位就足够了,这可以使处理速度更快。

已经出现了一些针对人工智能应用进行调整的硬件,如图形处理单元(GPU)、张量处理单元(TPU)和晶圆级引擎(WSE)。从20世纪60年代到大约2012年,用于训练顶级机器学习应用的计算能力遵循了摩尔定律。从2012年开始,情况发生了变化:从2012年到2018年,这一数字增长了30万倍,大约每100天翻一番(Amodei and Hernandez, 2018)。在2014年花一整天训练的机器学习模型在2018年只需两分钟就可以训练完成(Ying et al ., 2018)。尽管 量子计算 (quantum computing)还不实用,但它有望为人工智能算法的一些重要子方向提供更显著的加速。

毋庸置疑,在电子计算机出现之前计算设备就已经存在了。最早的自动化机器可追溯到17世纪(见1.2.1节的讨论)。第一台 可编程 机器是由约瑟夫·玛丽·雅卡尔(Joseph Marie Jacquard,1752—1834)于1805年发明的提花织布机,它使用打孔卡片来存储编织图案的指令。

19世纪中期,查尔斯·巴贝奇(Charles Babbage,1792—1871)设计了两台计算机,但都没有完成。差分机的目的是为工程和科学项目计算数学表。它最终于1991年建成并投入使用(Swade, 2000)。巴贝奇的分析机更有雄心:它包括可寻址内存、基于雅卡尔打孔卡的存储程序以及有条件的跳转。这是第一台能够进行通用计算的机器。

巴贝奇的同事埃达·洛芙莱斯(Ada Lovelace,诗人拜伦勋爵的女儿)理解了计算机的潜力,将其描述为“一种能思考或者……能推理的机器”,能够对“宇宙中所有事物”进行推理(Lovelace, 1843)。她还预测到了人工智能的技术成熟度曲线,并提出:“我们最好防范可能夸大分析机能力的想法。”遗憾的是,巴贝奇的机器和洛芙莱斯的思想已基本被遗忘了。

人工智能还得益于计算机科学软件方面的发展,后者提供了编写现代程序所需的操作系统、编程语言和工具(以及有关它们的论文)。而这也是人工智能对其有回馈的领域:人工智能工作开创的许多想法正重归主流计算机科学,包括分时、交互式解释器、使用窗口和鼠标的个人计算机、快速开发环境、链表数据类型、自动存储管理,以及符号式编程、函数式编程、说明性编程和面向对象编程的关键概念。

1.2.7 控制理论与控制论

人造物如何在它们自己的控制下运行?

居住在亚历山大城的古希腊工程师克特西比乌斯(Ktesibios,约公元前250年)建造了第一个自我控制的机器:一台水钟,其特点是拥有一个可以保持恒定水流速度的调节器。这一发明改变了人造物可以做什么的定义。在此之前,只有生物才能根据环境的变化来改变自己的行为。其他自调节反馈控制系统的示例工作包括由詹姆斯·瓦特(James Watt,1736—1918)创建的蒸汽机调节器以及科内利斯·德雷贝尔(Cornelis Drebbel,1572—1633,潜艇发明者)发明的恒温器。詹姆斯·克拉克·麦克斯韦(James Clerk Maxwell)(Maxwell, 1868)开创了控制系统的数学理论。

第二次世界大战后, 控制理论 (control theory)发展的核心人物是诺伯特·维纳(Norbert Wiener,1894—1964)。维纳是一位杰出的数学家,在对生物和机械控制系统及其与认知的联系产生兴趣之前,曾与伯特兰·罗素等人合作。像克雷克(把控制系统作为心理模型)一样,维纳和他的同事阿图罗·罗森布鲁斯(Arturo Rosenblueth)以及朱利安·毕格罗(Julian Bigelow)挑战了行为主义正统派(Rosenblueth et al ., 1943)。他们认为具有目的的行为源于试图最小化“错误”的调节机制,即当前状态和目标状态之间的差异。20世纪40年代后期,维纳与沃伦·麦卡洛克(Warren McCulloch)、沃尔特·皮茨(Walter Pitts)和约翰·冯·诺伊曼一起组织了一系列有影响力的会议,探索关于认知的新数学和计算模型。维纳的《控制论》( Cybernetics )(Wiener, 1948)成为畅销书,使大众意识到了人工智能机器的可能性。

与此同时,英国控制论专家罗斯·艾什比(W. Ross Ashby)开创了类似的思想(Ashby, 1940)。艾什比、图灵、沃尔特和其他一些学者为“那些在维纳的书出现之前就有维纳想法的人”组织了推理俱乐部 。艾什比在《大脑设计》( Design for a Brain )(Ashby, 1948, 1952)一书中详细阐述了他的想法,即可以通过 自我平衡 (homeostatic)设备来实现智能,该设备使用恰当的反馈回路来实现稳定的自适应行为。

现代控制理论,特别是被称为随机最优控制的分支,其目标是设计随时间最小化 代价函数 (cost function)的系统。这与人工智能的标准模型——设计性能最优的系统大致相符。尽管人工智能和控制理论的创始人之间有着密切的联系,为什么它们却是两个不同的领域呢?答案在于参与者所熟悉的数学技术与每种世界观所包含的对应问题是紧密结合的。微积分和矩阵代数是控制理论的工具,它们适用于固定的连续变量集描述的系统,而人工智能的建立在一定程度上是为了避开这些可感知的局限性。逻辑推理和计算工具使人工智能研究人员能够考虑语言、视觉和符号规划等问题,而这些问题完全超出了控制理论家的研究范围。

1.2.8 语言学

语言是如何与思维联系的?

1957年,斯金纳(B. F. Skinner)发表了 Verbal Behavior ,包含该领域最著名的专家对语言学习的行为主义方法的全面详细的描述。但奇怪的是,一篇对这本书的评述也像这本书一样广为人知,几乎扼杀了大众对行为主义的兴趣。评述的作者是语言学家诺姆·乔姆斯基,彼时他刚刚出版了一本关于他自己理论的书《句法结构》( Syntactic Structure )。乔姆斯基指出,行为主义理论并没有解决语言创造力的概念,它没有解释孩子们如何理解并造出他们从未听过的句子。乔姆斯基以句法模型为基础的理论可以追溯到古印度语言学家波你尼(Panini,约公元前350年)。该理论可以解释语言创造力,而且与以前的理论不同,它足够形式化,原则上可以被程序化。

现代语言学和人工智能几乎同时“诞生”,并一起成长,交叉于一个称为 计算语言学 (computational linguistics)或 自然语言处理 (natural language processing)的混合领域。相比1957年,理解语言复杂了许多。理解语言需要理解主题和上下文,而不仅仅是理解句子结构。这似乎是显而易见的,但直到20世纪60年代才得到广泛认可。 知识表示 (knowledge representation)(关于如何将知识转化为计算机可以推理的形式的研究)的大部分早期工作与语言相关联,并受到语言学研究的启发,而语言学研究反过来又与数十年的语言哲学分析工作有关联。


[1] Ars Magna 为拉丁文书名,翻译成英文的书名为 The Great Art 。——编者注

[2] 培根的《新工具》( Novum Organum )是亚里士多德的《工具论》( Organon )的更新。

[3] 在第二次世界大战后,图灵想把这些计算机用于人工智能研究,例如,他创建了第一个国际象棋程序的框架(Turing et al ., 1953),但英国政府阻止了这项研究。 B2NJeMNjI022GFYmkHmraBKFxm+qHjb9lx3qsnl6f6KdN4xH5dxR7WM4JrX6PXZx

点击中间区域
呼出菜单
上一章
目录
下一章
×