第1章
人工智能的概念及发展

自20世纪中期以来，科学家一直在研究人工智能，旨在开发能像人类一样学习和思考的机器。纵观数十年来人工智能的发展历程，我们顿觉大道如砥、大势如潮！

1.1936年：图灵机

现代计算机的前身是英国数学家艾伦·麦席森·图灵（Alan Mathison Turing）[见图1-1（a）]于1936年在其论文《论可计算数及其在判定问题上的应用》中提出的一个简单的计算设备，可用于帮助研究可计算的范围和限制。次年，阿隆佐·丘奇（Alonzo Church）在对该论文的评论中首次将该设备命名为“图灵机”。

图灵机的出名在于第二次世界大战中对德国恩尼格码密码的破解。第二次世界大战中，德军发明了一个由多个转子组合而成的密码机，即恩尼格码密码机[见图1-1（b）]，不同的转子组合可产生不同的密码编码方式，其密钥机变化种类达1.59×10 ²⁰ 种，即1.59万亿亿种可能。恩尼格码密码排除了人力破解的可能，有人计算，如果10个人穷尽一生不眠不休都在验证这个密码的各种可能性，至少需要2000万年才能验证完全。盟军因为不能破解德军的密码，所以在战场上屡屡失利。为破解该密码，英国军方找到了艾伦·麦席森·图灵，他和其他专家在伦敦附近的布莱切利庄园开始了密码破解工作。经过艰苦努力，艾伦·麦席森·图灵应用他的图灵机破解了恩尼格码密码，为英军扭转败局奠定了基础。艾伦·麦席森·图灵和图灵机由此名声大噪，图灵机被认为是现代计算机的基础模型，艾伦·麦席森·图灵被认为是“现代计算机科学之父”。

为纪念图灵和他的贡献，后世于1966年设立了图灵奖。1994年，A6010公路（曼彻斯特市中间的环形公路）的一段被命名为“艾伦·图灵路”，马路相连的一座桥被拓宽并被命名为“艾伦·图灵桥”。2001年6月23日，一座图灵的纪念雕像[见图1-1（c）]被放置在英国曼彻斯特市惠特沃斯街的曼彻斯特大学大楼和运河街之间。它展示了这位“现代计算机科学之父”坐在公园中心位置的长椅上的形象，在雕像脚下的一块牌子上写着“现代计算机科学之父，数学家，逻辑学家，战时破译密码者”。牌子上还引用了伯特兰·罗素的一句话：“数学是纯思想的科学”。《时代》周刊将艾伦·麦席森·图灵评为20世纪100位最重要的人物之一，并指出：“事实是，每个敲击键盘、打开电子表格或文字处理程序的人都在作为图灵机的一个化身工作。”

向艾伦·麦席森·图灵致敬！

图1-1 艾伦·麦席森·图灵（a）、恩尼格码密码机（b）及英国曼彻斯特市图灵纪念雕像（c）

2.1952年：机器学习的出现

20世纪50年代，IBM的工程师Arthur Samuel开发了一个玩跳棋的计算机程序；1952年，Arthur Samuel首次提出了“机器学习”（Machine Learning，ML）一词。1962年，跳棋大师Robert Nealey在一台IBM 7094计算机上玩跳棋，结果输给了计算机的跳棋程序。此事件被认为是人工智能领域的一个重大里程碑，显示了机器学习的内在潜力。

机器学习基于统计学原理，应用数据训练集进行算法训练和优化，自动建立数学模型，不需要专门的编程来做出这些决策。20世纪70年代末80年代初，机器学习一度被计算机科学和人工智能研究人员放弃，因为这段时间的人工智能研究专注使用逻辑的、基于知识的方法而不是基于数据的算法。因此，包括大量研究人员和技术人员在内的机器学习行业被重组为一个独立的领域，研究重点从人工智能转移到概率论和统计学中的方法和策略。这种情况持续了近10年，直到20世纪90年代，互联网开始蓬勃发展。互联网不断增长的数据和通过互联网分享其服务的需求为机器学习提供了繁荣发展的机遇。目前，机器学习已经成为人工智能领域的关键技术，人工智能的大部分进展涉及机器学习。后续章节中，我们将深入探讨机器学习的利弊。

3.1956年：“人工智能”开启历史

1955年8月，四位学者起草了一份名为《达特茅斯建议》（ Dartmouth Proposal ）的文件，提出了如下建议。

我们建议1956年夏天在新罕布什尔州汉诺威的达特茅斯学院开展一项为期2个月、10个人的人工智能研究。这项研究将在以下猜想的基础上进行：学习的每个方面或智能的任何其他特征原则上都可以被精确地描述，以至于可以用机器来模拟它。我们将试图找到如何使机器使用语言，形成抽象概念，解决现在留给人类的各种问题，并改进自己。我们认为，如果一个精心挑选的科学家小组在夏天一起工作，就可以在这些问题中的一个或多个方面取得重大进展。（We propose that a 2 months，10 men study of artificial intelligence be carried out during the summer of 1956 at Dartmouth College in Hanover，New Hampshire.The study is to proceed on the basis of the conjecture that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it.An attempt will be made to find how to make machines use language，form abstractions and concepts，solve kinds of problems now reserved for humans，and improve themselves.We think that a significant advance can be made in one or more of these problems if a carefully selected group of scientists work on it together for a summer.）

在此建议下，1956年8月，10名来自世界各地的科学家聚集在美国新罕布什尔州汉诺威市的达特茅斯学院（见图1-2）举行了一次具有历史意义的夏季会议。在此次会议上，会议的主要组织者、达特茅斯学院教授、数学家约翰·麦卡锡提出了“人工智能”（Artificial Intelligence，AI）一词，其被固定下来沿用至今。

图1-2 美国新罕布什尔州汉诺威市的达特茅斯学院

从历史角度看，正是艾伦·麦席森·图灵的前期工作促进了计算机的发展和人工智能概念的建立，并为此次会议的理念及计算机、人工智能的发展奠定了基础。

4.1966年：图灵奖、第一个聊天机器人ELIZA

为表彰和纪念图灵对计算机和人工智能的发展所做出的开创性贡献，美国计算机协会（Association for Computing Machinery，ACM）于1966年设立了图灵奖（Alan Mathison Turing Award，A.M.TURING AWARD）（奖杯见图1-3）以表彰为计算机科学的发展做出贡献的个人，并在同年将第一个图灵奖颁发给美国计算机科学家艾伦·佩利（Alan J.Perlis），以表彰他在ALGOL语言的定义与扩充上做出的重大贡献。图灵奖是计算机学界的最高奖项，被认为是“计算机学界的诺贝尔奖”。

图1-3 图灵奖奖杯

同年，美国麻省理工学院的计算机科学家约瑟夫·维森鲍姆（Joseph Weizenbaum）发明了一个可以与人类交流的计算机程序“ELIZA”。它通过编程来模拟精神科医生标准化的提问与患者沟通，并用简单的方式回应患者的回答。ELIZA非常成功，以至于让众多使用者向一台机器敞开了内心，这使维森鲍姆感到非常震惊，由此他开始了对人工智能的哲学思考，后来成为人工智能的批评者。

5.1967年：模式识别的出现

Marcello Pelillo提出了“最近邻算法”，该算法最早用于解决寻找旅行推销员最高效的推销路线问题。后来，此算法被认为是模式识别算法的基础。

6.1972年：医疗人工智能的开启

1972年，美国加利福尼亚州斯坦福大学的Edward Shortliffe开发了一个早期的基于规则的医用专家系统“MYCIN”。MYCIN是用LISP编程语言编写而成的，用于诊断和治疗感染性疾病。它将病人的症状与已知的感染数据库进行比对，以获得诊断。如果无法在数据库中找到匹配的答案，它将询问更多问题以缩小诊断范围。一旦MYCIN在数据库中比对成功，它将根据病人被感染的可能性和感染的严重程度对比对结果进行排序，然后推荐一个治疗方案，其中包括抗生素、手术或其他医疗程序。

MYCIN是第一个为医疗用途而发明的系统，在计算机历史上脱颖而出，处于当时的先进水平，被认为是通往更现代系统的垫脚石，是早期机器学习系统人工智能的“鼻祖”。遗憾的是，虽然该系统进行了大量的测试，但从未在真实临床环境中使用过。

7.1986年：NETtalk发声

1986年之前，计算机不能通过阅读文字而发出声音，即不能朗读文字。美国约翰霍普金斯大学的Terrence J.Sejnowski和Charles R.Rosenberg开发了NETtalk技术（发表的论文标题见图1-4），通过输入样本句子和音素链来教程序说话。NETtalk能够阅读单词并正确发音，并且将它所学到的东西应用于它不知道的单词。它是早期的人工神经网络的体现，是能够在大量数据集的基础上得出自己结论（发出正确声音）的程序。

图1-4 发表的NETtalk论文的标题

8.1997年：“深蓝”击败国际象棋世界冠军

来自IBM的人工智能国际象棋计算机“深蓝”（Deep Blue）在1997年的一次比赛中击败了国际象棋世界冠军加里·卡斯帕罗夫（Garry Kasparov）。这被认为是人工智能挑战由人类主宰的领域的一个历史性胜利，但批评者认为“深蓝”仅仅是通过计算所有可能的棋步而不是凭借认知智能获胜的。

9.2005年：智能机器人

波士顿动力（Boston Dynamics）公司于2005年推出运输用机械犬“BigDog”的初期型号。以此为开端至2017年，该公司先后推出了集成图像识别、地形识别、语音识别、动作控制等智能化技术的人形和犬形机器人（示例见图1-5）。这些机器人可以实现上楼、开门、取物、跨越障碍、后空翻、听取语音指令、组成团队开展工作等功能，展示了波士顿动力公司强大的人工智能技术研发和整合能力。

图1-5 波士顿动力公司的机器人示例

10.2007年：苹果公司推出第一代智能手机

1954年6月7日，艾伦·麦席森·图灵被发现死于家中，身边发现一个粘有氰化物、被咬了一口的苹果，由此怀疑艾伦·麦席森·图灵死于自杀。

1976年4月1日，史蒂夫·乔布斯、斯蒂夫·沃兹尼亚克和Ron Wayne在美国加利福尼亚州的库比蒂诺成立了美国苹果公司。该公司的Logo是一个咬了一口的苹果[见图1-6（a）]，据说这是为了纪念艾伦·麦席森·图灵。

2007年1月9日，在美国旧金山马士孔尼会展中心举行的Macworld大会上，苹果公司的第一代智能手机iPhone发布[见图1-6（b）]。该手机不仅比其他手机多出几个新功能，而且是一台既可以打电话又可以上网、类似功能完整的手提电脑的手机，是计算机技术实用化的巨大进步。

图1-6 苹果公司Logo（a）及其第一代智能手机iPhone（b）

11.2010年：自动驾驶

2010年，美国谷歌公司在官方博客中宣布正在开发自动驾驶系统，其无人驾驶汽车于2012年获得牌照上路。自动驾驶整合了图像识别、地形识别、人脸识别、雷达扫描、自动定位、自主决策等多项人工智能技术。

12.2011年：智能语音系统

随着智能手机的普及，苹果的智能语音助手Siri[见图1-7（a）]在2011年进入市场，微软在2014年推出了有类似功能的Cortana软件[见图1-7（b）]，亚马逊在2015年推出了带有语音服务功能的智能音箱Echo[见图1-7（c）]。

同年，美国IBM公司基于自然语言处理（Natural Language Processing，NLP）技术的语音系统Watson参加了美国的一个电视问答节目 Jeopardy ！（见图1-8），在与人类选手的比赛中获胜。在此过程中，Watson证明了它对自然语言的理解，以及快速回答困难问题的能力。

此后，智能语音技术持续进步。美国谷歌公司于2018年5月推出了模拟人类声音的Duplex，用于预订、预约等服务。同年6月，IBM推出了智能语音系统Project Debater，这是有史以来第一个能够与人类进行有意义的现场辩论的语音人工智能系统。

图1-7 各公司智能语音对话系统示例

图1-8 IBM的Watson参加电视问答节目

13.2012年：大数据时代

随着计算机的出现及其在各行各业的应用，以及其后互联网的出现和繁荣，人类社会每天产生越来越多的数据，而这些数据从规模上反映了一定的趋势信息，可帮助人类解决一些生产、商业和生活中的问题。但从这些海量数据中找出有用的信息已超出人力能够处理的范畴，因此需要专门的数据处理技术。2012年，牛津大学互联网研究所的教授维克托·迈尔-舍恩伯格（Viktor Mayer Schönberger）与著名记者、学者肯尼思·库克耶（Kenneth Cukier）合作出版了《大数据时代：生活、工作与思维的大变革》（ Big Data：A Revolution That Will Transform How We Live ， Work ， and Think ，见图1-9），该书在客观上正式宣告了大数据时代的到来，出版后成为《纽约时报》的畅销书，并被翻译成20多种语言在世界各地发行。

图1-9 图书 Big Data：A Revolution That Will Transform How We Live，Work，and Think 的英文版（a）和中文版（b）

大数据与人工智能可形成良性互补。机器学习技术需要数据训练集以形成算法，海量数据可促进机器学习的算法演进；反过来，进化的人工智能可帮助使用者释放出海量数据中的潜力来获得信息和决策力，从而提高效率、收入和利润。人工智能技术大量普及后，可整体提高社会的生产效率，推动社会发展。可以说，大数据为机器学习类人工智能提供了足够多的营养和足够大的成长空间。

14.2022年：ChatGPT发布

2022年年底，美国OpenAI公司发布了他们积蓄8年之力研发的自然语言处理人工智能技术ChatGPT，瞬间引爆了全世界的人工智能界。GPT是生成式预训练语言模型（Generative Pre-trained Transformer）的缩写。ChatGPT的表现是具有智能化特征的，但应看到它不具备真正的智能，因为它表现出来的类人的对话能力不是基于对内容含义的理解，而是基于NLP的统计的结果。本质上，ChatGPT是一个超大的文本统计语言顺序预测模型，它学习了超百TB的训练素材，相关参数超过1750亿个，需要1万枚英伟达A100芯片来处理这些学习素材和所要考虑的参数，一次完整的模型训练成本超过1200万美元（约合人民币8000万元），这是单个人类不可能达到的能力。尽管大模型不能理解对话的本质，但是已经可以充分“计算”对话者的意思，并应用超多的语料进行合理的回应。在如此大规模学习模型的基础上，训练出来的GPT就如同一个对各行各业都有所了解的通识者，具备了无数的语料，在和人类对话时有说不完的话题和内容。

小结

基于图灵机的现代计算机的发明和应用促进并加速了人类社会技术和生产力的发展。到目前为止，计算机和互联网已成为不再刻意提及的基础设施，如何更好地发挥计算机及其网络的功能成为科技发展的动力和目标，人工智能在各个领域的应用是发展目标之一。在此过程中，对数据处理算法的要求凸显出来，机器学习成为人工智能的基本技术被应用于图像识别、语音识别、路线规划等众多数据分析领域，取得了很大的成就，以至于有些软件工程师认为没用到机器学习就不算人工智能。但正如“一枚硬币有正反两面”一样，机器学习也兼具优点和缺点。

第1章 人工智能的概念及发展