人工智能的发展初期以如何刻画人类的智能行为作为研究目标,特别是对知识的表达和推理过程的形式化。换句话说,就是如何将人类的智能行为用计算机模拟出来。事实上,对人类知识结构和推理方法的研究最早可上溯到古希腊哲学家亚里士多德(Aristotle)的三段论逻辑以及欧几里得(Euclid)的形式推理方法。13世纪,加泰罗尼亚数学家和逻辑学家拉蒙·柳利(Raymundus Lullus)用机械手段模拟简单的逻辑操作,通过演绎运算从旧知识中推理出新知识。17世纪,英国哲学家霍布斯(Hobbes)和数学家莱布尼茨(Leibniz)等进一步提出“推理就是计算”的思路,将逻辑变得可计算化。到了20世纪,在布尔(Boole)、费雷格(Frege)、希尔伯特(Hilbert)、罗素(Russell)等人的努力下, 数理逻辑 (Mathematical logic)成为一门独立的学科,标志着逻辑推理形式化的数学理论最终形成。
什么叫逻辑推理形式化呢?可以通过一个例子来简单理解。假设 p 、 q 、 r 分别表示“今天下雨”“我们今天不野餐”“我们明天野餐”,那么“如果今天下雨,那么我们今天将不野餐。”可表示为 p → q ;“如果我们今天不野餐,那么我们明天将野餐。”可以表示为 q → r 。通过连续运用推理规则,即可由 p → q 和 q → r 推理出 p → r 。这意味着“如果今天下雨,那么则明天野餐。”在上述过程中,我们将事实表示为符号,将推理表示成符号间的蕴含关系(→),如果再加上一系列限制条件和演算规则,即可得到一套逻辑系统。在这套系统中, p 、 q 、 r 是独立于事实本身的变量,因此该系统描述的不是某一个具体的推理任务,而是一类基于相同逻辑元素和统一推理规则的任务的抽象表示。基于此,推理过程被转化成符号演算,这是数理逻辑的基本思路。
数理逻辑的发展为未来的人工智能大厦奠定了第一块基石。数理逻辑的先驱们认为一切智能活动都可以转化为逻辑过程,因此逻辑过程的可计算意味着人类智能的可计算。希尔伯特(图1-1)甚至曾经设想一个一致完备的逻辑体系,只要基本假设是合理的,就可以通过运算推导出领域内的一切知识。这个大一统的梦想最终被哥德尔(Godel)著名的不完备定理打破,但数理逻辑的强大描述能力已经深入人心,大大增加了人们制造智能机器的勇气。人们相信,只要逻辑系统设计得足够好,就有望将人类的智能过程通过计算完美地复现,尽管当时计算机还没有出现。
图1-1 大卫·希尔伯特(德国人,1862—1943年,伟大的数学家)
注:1900年,希尔伯特在巴黎的国际数学家大会上提出了23个问题。这些问题为20世纪的数学研究指明了方向,被称为“希尔伯特问题”。希尔伯特的第2个问题为“算术公理之相容性”。在这一问题中,希尔伯特猜想一个公理系统可以一致、完备地生成所有真值命题。这一猜想在1930年被奥匈帝国数学家库尔特·哥德尔证明为伪。
哥德尔于1930年证明,任意一个足够强大的逻辑系统都是不完备的,总有一些定理在该逻辑系统中无法被证明为真,也无法被证明为伪。哥德尔的证明类似“说谎者悖论”:如果有个人说“我说的是假话”,我们是无法判断这句话的真假的。如果这个人说的是真话,那么由“我说的是假话”这句话的意义可推知他(她)实际在说假话,与前提“他在说真话”相互矛盾;反之,如果这个人说的是假话,则“我说的是假话”这句话就不是真的,因此这个人事实上说的是真话,又与前提“他在说假话”相互矛盾。哥德尔证明类似的悖论在任何一个足够强的逻辑系统中都存在,因此任何一个逻辑系统总有它无法理解的命题存在。这说明任何一个系统都有其固有局限性,不同层次的系统局限性各不相同。计算机无法突破其固有局限性,因此模拟人类智能的方法有可能永远无法超过人类。
1936年,年仅24岁的英国科学家图灵(Turing)在他的论文《论可计算数及其在判定问题上的应用》中提出 图灵机 (Turing Machine)模型,证明基于简单的读写操作,图灵机有能力处理非常复杂的计算,包括逻辑演算。1945年6月,美国著名数学家和物理学家约翰·冯·诺伊曼(John von Neumann)等人联名发表了著名的“101页报告”,阐述了计算机设计的基本原则,即著名的 冯·诺伊曼结构 。1946年2月14日,世界上第一台计算机ENIAC在美国宾夕法尼亚大学诞生。1951年,ENIAC的发明者电气工程师约翰·莫奇利(John William Mauchly)和普雷斯波·艾克特(J. Presper Eckert)依据冯·诺伊曼结构对ENIAC进行了升级,即著名的EDVAC计算机。计算机的出现为快速逻辑演算准备好了工具,奠定了人工智能大厦的第二块基石。
在美国人设计ENIAC的同时,图灵也在曼彻斯特大学负责曼彻斯特一号的软件开发工作,并开始关注让计算机执行更多智能性的工作。例如,他主张智能机器不该只复制成人的思维过程,还应该像孩子一样成长学习,这正是机器学习的早期思路;他认为可以通过模仿动物进化的方式获得智能;他还自己编写了一个下棋程序,这可能是最早的机器博弈程序了。为了对人工智能有个明确的评价标准,图灵于1950年提出了著名的 图灵测试 (Turing Test)。在这一测试中,图灵设想将一个人和一台计算机隔离开,通过打字进行交流。如果在测试结束后,机器有30%以上的可能性骗过测试者,让他(她)误以为自己是人,则说明计算机具有智能。这一测试标准一直延续至今,可惜还没有一台计算机可以确定无疑地通过这一看似简单的测试。图灵的这些工作使他成为人工智能当之无愧的创始人(图1-2)。
图1-2 图灵和他的图灵测试
注:测试者通过键盘和机器及真人以自然语言对话,如果机器可以骗过测试者,让测试者以为它是真人,则认为该机器具有了智能。
就在图灵开始他的人工智能研究不久,当时很多年轻人也开始关注这一崭新的领域,其中就包括美国达特茅斯学院数学助理教授约翰·麦卡锡(John McCarthy)、美国哈佛大学数学与神经学初级研究员马文·明斯基(Marvin Minsky)、贝尔电话实验室数学家克劳德·香农(Claude Shannon)、IBM公司信息研究经理纳撒尼尔·罗切斯特(Nathaniel Rochester)。1956年,这些年轻人聚会在达特茅斯学院,讨论如何让机器拥有智能,这次会议被称为“达特茅斯会议”(图1-3和图1-4)。正是在这次会议上,研究者们正式提出“人工智能”这一概念,AI从此走上历史舞台。当时讨论的研究方向包括以下几个方面:
可见,当时人工智能的研究非常宽泛,像编程语言、计算复杂性这些现在看来并不算AI的范畴也需要人工智能的学者们考虑。这是因为当时计算机刚刚诞生不久,很多事情还没有头绪,AI研究者们不得不从基础做起。尽管如此,现代人工智能的主要研究内容在这次会议上已经基本确定了。
达特茅斯会议被公认为是人工智能研究的开始,会议的参加者们在接下来的数十年里都是这个方向的领军人物,完成了一次又一次的创举和突破。
图1-3 达特茅斯会议原址
图1-4 达特茅斯会议的几位参加者
历史总是曲折的,同时也是螺旋式前进的,人工智能的发展也是如此。我们可以将人工智能的发展分为以下几个阶段。
黄金十年(1956—1974年) 达特茅斯会议后的十年被称为黄金十年,这是人工智能的第一次高潮。当时很多人持有乐观情绪,认为经过一代人的努力,创造出与人类具有同等智能水平的机器并不是个难题。1965年,希尔伯特·西蒙(Herbert Simon)就曾乐观预言:“二十年内,机器人将完成人能做到的一切工作。”在这近二十年里,包括ARPA在内的资助机构投入大笔资金支持AI研究,希望制造出具有通用智能的机器。这一时期的典型方法是 符号方法 (Symbolic Method),该方法基于人为定义的知识,利用符号的逻辑演算解决推理问题。 启发式搜索 (Heuristic Search)是这一时期的典型算法,这一算法通过引入问题相关的领域知识(称为启发信息)对搜索空间进行限制,从而极大地提高了符号演算的效率。这一时期的典型成果包括定理证明、基于模板的对话机器人(ELIZA、SHRDLU)等。
AI严冬(1974—1980年) 到了20世纪70年代,人们发现AI并不像预想的那么无所不能,只能解决比较简单的问题。这其中有计算资源和数据量的问题,也有方法论上的问题。当时的AI以逻辑演算为基础,试图将人的智能方式复制给机器。这种方法在处理确定性问题(如定理证明)时表现很好,但在处理包含大量不确定性的实际问题时则具有极大的局限性。一些研究者开始怀疑用逻辑演算模似智能过程的合理性。如休伯特·德莱弗斯(Hubert Dreyfus)就认为人类在解决问题时并不依赖逻辑运算 ,然而,不依赖逻辑运算的感知器模型被证明具有严重局限性 ,这使得研究者更加心灰意冷。AI研究在整个20世纪70年代进入严冬。
短暂回暖(1980—1987年) 到了20世纪80年代,人们渐渐意识到通用AI过于遥远,人工智能首先应该关注受限任务。这一时期发生了两件重要的事情,一是 专家系统 (Expert System)的兴起;二是 神经网络 (Neural Net)的复苏。前者通过积累大量领域知识,构造了一批可应用于特定场景下的专家系统,受到普遍欢迎;后者通过学习通用的非线性模型,可以得到更复杂的模型。这两件事事实上都脱离了传统AI的标准方法,从抽象的符号转向更具体的数据,从人为设计的推理规则转向基于数据的自我学习。
二次低潮(1987—1993年) 20世纪80年代后期到20世纪90年代初期,人们发现专家系统依然有很大的问题,知识的维护相当困难,新知识难以加入,老知识互相冲突。同时,日本雄心勃勃的“第五代计算机”也没能贡献有价值的成果。人们对AI的投资再次削减,AI再次进入低谷。在这一时期,人们进一步反思传统人工智能中的符号逻辑方法,意识到推理、决策等任务也许并不是人工智能的当务之急,实现感知、移动、交互等基础能力也许是更现实、更迫切的事,而这些任务与符号逻辑并没有必然联系。
务实与复苏(1993—2010年) 经过20世纪80年代末和20世纪90年代初的反思,一大批脚踏实地的研究者脱去AI鲜亮的外衣,开始认真研究特定领域内特定问题的解决方法,如语音识别、图像识别、自然语言处理等。这些研究者并不在意自己是不是在做AI,也不在意自己从事的研究与人工智能的关系。他们努力将自己的研究建立在牢固的数学模型基础上,从概率论、控制论、信息论、数值优化等各个领域汲取营养,一步步提高系统的性能。在这一过程中,研究者越来越意识到数据的重要性和统计模型的价值, 贝叶斯模型 (Bayes Model)和神经网络越来越受到重视,机器学习成为AI的主流方法。
迅猛发展(2011至今) 人工智能再次进入大众的视野是在2011年。这一年苹果发布了iPhone 4S,其中一款称为Siri的语音对话软件引起了公众的关注,重新燃起了人们对人工智能技术的热情。从技术上讲,这次人工智能浪潮既源于过去十年研究者在相关领域的踏实积累,同时也具有崭新的元素,特别是大数据的持续积累、以 深度神经网络 (Deep Neural Net,DNN)为代表的新一代机器学习方法的成熟,以及大规模计算集群的出现。这些新元素组合在一起,形成了聚合效应,使得一大批过去无法解决的问题得以解决,实现了真正的成熟落地。可以说,当前的人工智能技术比历史上任何一个时代都踏实和自信。