人工智能(Artificial Intelligence,AI)一词对多数读者们来说并不陌生,它们经常在科幻小说或电影中出现,今天已经走进了我们的生活。你能说出生活中都有哪些地方用到了人工智能技术吗?人工智能可以合成出我的声音吗?智能音箱为什么能够和你对话?机器眼中的世界和我看到的有什么不一样?人工智能已经聪明到可以识别任何物品吗?人工智能能够感受你脸上的情绪吗?人工智能可以进行艺术创作吗?自动驾驶会代替人类司机吗?在人工智能面前我又该如何提防信息隐私泄露?
本书将从生活中五光十色的人工智能应用讲起,一点一滴地将同学们引入人工智能技术的世界。
【学习起航】
1.识别生活中的人工智能技术。
2.了解人工智能的典型应用。
3.了解人工智能技术可能的风险。
人类从什么时候开始思考机器是否可以像人类一样思考呢,这就要从20世纪上半叶谈起了,最需要被提及的是被誉为“计算机之父”和“人工智能之父”的阿兰·图灵。时间可追溯到1939年,第二次世界大战期间,英国情报中心召集了包括图灵在内的很多专家学者来破译德军的超级密码机——恩尼格玛。经过对恩尼格码的研究,图灵发现这个有上万亿种可能性的密码机,通过人工的方式来破解基本是不可能的,所以最终决定制造一个更为复杂的机器,它的功能是进行复杂、快速的运算来破解密码。后来,这台机器每天可以破解上千条密码,远远超出了人们的预期。
那么,这台会计算的机器就是人工智能了吗?显然图灵不这么认为,一台不会思考的机器怎么能和我们人类平起平坐?“二战”结束以后,图灵有更多的时间来思考这个问题,1950年在他的论文《计算机器与智能》中,开篇的第一句话就是:“机器,能思考吗?”如果一台机器能够与人类对话,而不被辨别出其机器的身份,那么这台机器就具备智能——这就是著名的“图灵测试”。
自此以后,科学家开始不断思考和探索,逐步开启了寻找“人工智能”金钥匙的道路。1956年,美国汉诺弗小镇的达特茅斯学院中聚集了一群踌躇满志的天才,他们主要讨论机器如何来模仿智能的特征,比如,像人类一样思考、使用语言、形成抽象概念、解决人类现存的问题。这次会议被命名为“人工智能夏季研讨会”,这也是人类历史上首次正式提出“人工智能”的概念。达特茅斯会议就这样拉开了“人工智能”的序幕。
一开始,人工智能研究还只是在科学家群体里默默开展壮大,但真正能吸引公众眼球的成果并不多,当它再次回到公众视野中的时候,时间已经到了1997年。这一年,IBM公司的超级计算机“深蓝”挑战国际象棋世界冠军加里·卡斯帕洛夫。虽然卡斯帕洛夫一分钟可以思考3步棋,但“深蓝”的记忆力更强,它存储了一百年来几乎所有顶级大师的棋谱,一秒钟可以思考两亿步棋。在最后的决胜局中,卡斯帕洛夫仅仅走了19步便投子认输,这场人机大战以机器完胜人类棋手而结束,人工智能顿时声名大噪。
不过当时有专家指出机器下好国际象棋容易,精通围棋却不可能,因为围棋虽然看似只有黑白两种棋子,但方寸之间的计算复杂程度比国际象棋要高得多。而深蓝就是一个记忆力特别好,计算能力特别强的“大计算器”,还算不上真正的人工智能,除了下象棋别的什么都不会,什么时候它能把围棋搞清楚,那才算真的厉害。
事实也似乎验证了上述言论,随后几年,人工智能的确无法战胜人类围棋高手,甚至人类的国际象棋高手也在和机器对弈中不断提升水平,和“深蓝”的继任者也是互有胜负,深蓝引起的轰动似乎也被人们逐渐淡忘了。时间又过去了十几年,IBM公司又在另一个领域给我们带来惊喜,2011年,IBM人工智能系统“沃森”决定向北美热播的智力问答节目《危险边缘》宣战,能从节目中胜出的都是上知天文下知地理的学霸级人物,很多人并不看好“沃森”,因为智力竞赛和下象棋不同,“沃森”的大脑中虽然已经输入全套百科全书和数百万份的资料,强大的处理器由90台服务器和360个计算机芯片驱动,但是问题的难点并不是存储丰富知识和快速的检索,更重要的是需要让“沃森”像人类一样理解出题者的问话。于是,“沃森”像人一样疯狂的“训练”,通过155场模拟赛、8000次以上实验,“沃森”在挑战两位史上获得奖金最多的人类选手时,再一次完胜。
这一下,人工智能再次名声大噪,如果“沃森”仅仅是一本会说话的百科全书,那还没什么了不起,关键是它已经能部分地“理解”我们人类所提出的问题了,无论机器和人类理解语言的技术和原理是否相同,但至少从效果来看,“沃森”已经有了一点模拟人类智能的影子。
历史之钟好像被调快了一样,仅仅5年后的2016年,世界顶尖围棋高手李世石九段接受了谷歌人工智能机器人“AlphaGo”的挑战。围棋的棋局变化多达10 172 ,不夸张地说围棋的走法比宇宙中所有物质的原子数还多。但是与“深蓝”不同的是,“AlphaGo”不能仅仅依靠“蛮力”的编程去复现人类棋手的策略,也不可能将所有走法的可能性都存储起来,我们所应用的是允许机器被训练,并不断学习成长的算法,这个算法就是大名鼎鼎的“深度学习”。在第二局37手“AlphaGo”走出了天马行空的一幕,让很多围观的人寒毛直竖,这一步棋让李世石整整想了15分钟,但已经回天无力了,最终“AlphaGo”完胜人类代表李世石。我们在“AlphaGo”身上仿佛已经初步看到人类的很多特质,比如创造力、直觉和复杂的思考。
1年后,“AlphaGo”的升级版“AlphaZero”再次击败了中国的围棋大师柯洁,这实际上标志着在围棋这个领域,人类已经无需再去挑战顶级的人工智能了,很快,人工智能的围棋水平将会把人类远抛在后。人类依然会享受人人对弈、智力碰撞的精彩和乐趣,而人工智能也不会局限于棋类游戏领域的小小成就,而是向更广阔的领域攻城拔寨。
如果要问“沃森”和“AlphaGo”到底算不算人工智能,答案当然是肯定的,但是如果要问它们是不是拥有我们人类一样或者类似的智力,这就很难讲,因为人类自身的智慧奥秘也还没有被完全揭开。关于智能,我们尚没有办法给出一个人人都信服的权威定义,对于人工智能也是如此。但我们也不必过于纠结,因为在探索终极智慧的道路上而不断壮大的人工智能技术和应用已经走向了人类社会的每个角落。
在我们的生活中,很多物品都被冠以“智能”的名号,例如智能手机、智能手表、智能音箱、智能洗衣机等。它们真的智能吗?它们的“智能”有技术高下之分吗?其实,以智能手机为例,最早的智能手机就是用户可以自行安装应用程序,功能较多,具有一定扩展性的手机,以现在的眼光来看,它们还算不上智能。再看看现在的手机,不但可以安装各类软件,还具备很多人工智能的独有特征。例如,手机中有很多传感器,除了麦克风等模仿人类的听觉以外,还有温度传感器和压力传感器能模仿我们的触觉,有一个或者多个摄像头来给手机赋予视觉,拥有电子陀螺仪来模仿人类的平衡感。再加上各种具备人工智能技术的软件的支持,手机不但可以通信和娱乐,还能成为一个聪明的数字助理,能够帮我们导航和规划路线,能够帮我们识别人脸和指纹,能够帮我们翻译和搜索,还能个性化地向我们推荐新闻和视频。虽然总觉得离真正的“智慧”还差了一点点,但的确已经充满不少先进的人工智能技术了。
当然,人工智能技术也是有高下之分的。以手机上的购物软件为例,如果软件只是列出货物供我们挑选,那么还算不上人工智能,但如果这个软件能够根据年龄、性别等个性化特征向我们推荐合适的商品,那么它就具备了一些人工智能的特点了,如果这个软件还能不断地学习,更深刻地分析你的购物习惯,从而推荐更贴合你心意的商品,那么这就一定是一个使用了人工智能技术的软件了。
再以人脸识别为例,如果没有人工智能技术,即便有摄像头,手机也不能识别出你就是你。有了人工智能技术,这个问题就解决了。如果这个手机还能识别出戴眼镜或戴帽子的你,这就是更先进的人工智能。如果这个手机还能够通过学习不断适应你的相貌变化,即便数年之后你已经成熟了许多,它依然能认出你,这就是非常棒的人工智能技术了。
可以看出,是否具备通过学习而自我完善的能力,是一项人工智能技术是否先进的重要标志。当然从应用角度来讲,只要一项技术模仿人类或其他智慧生物的思维或行为方式,来帮助我们解决实际问题,我们都可以将其称之为人工智能技术。
2022年2月4日,伴随着精彩的开幕式表演,北京冬奥拉开帷幕,北京也成为奥运百年历史上的第一座“双奥之城”。“智慧奥运”的理念贯穿着这届冬奥会的始终,例如在开幕式节目“雪花”中,国家体育场铺设的LED大屏系统与演员之间能够进行实时的“互动”,地面上的雪花图案会时时刻刻追随每个小演员的脚步,就像拥有生命一样,造就了美轮美奂的表演效果。这场绚丽的表演里包含了最先进的人工智能技术,例如基于计算机视觉的实时人体检测和位置追踪,采用了深度神经网络模型,仅仅通过4台摄像机就覆盖了全场,同时捕捉500多个孩子的位置,让计算机拥有了比人类还高明的“视力”,将唯美艺术和奥林匹克精神传递给世界。
目前,人工智能技术可谓遍地开花,在生活中,最成功的应用集中在语音识别、自然语言处理、计算机视觉、机器人等领域。语音识别和自然语言处理最常见的应用就是手机里的智能助手了;计算机视觉最典型的应用是门禁中的人脸识别和手机上的人脸解锁;机器人领域的典型应用有生活中常见的扫地机器人。其实很多生活中的应用都是多种人工智能技术通力协作的结果,比如智能服务机器人,既使用了计算机视觉技术观察周围环境,也使用了自然语言处理和语音识别技术来接收或者反馈人类的指令,还使用了智能控制技术来决定行走的路线。
除了这些日常的人工智能应用外,我们生活中还有许多有趣的应用。下面来看看这些应用场景背后都包含了哪些人工智能技术。
很多手机应用中都有扫一扫功能,要知道除了扫二维码/条码外,有时候还能扫很多其他的对象。现在京东、淘宝等应用都有扫一扫识别物品功能,可以便捷地找到相同或相似在售的商品信息,如图1-1所示。其实无论是相对简单的二维码,还是稍复杂的物品扫一扫,背后都用到了图像识别这一典型人工智能技术。
图1-1 扫一扫识别物品
2020年年初,一段利用人工智能技术修复的100年前老北京视频在网络上热转,如图1-2所示,这些视频的作者网名叫“大谷”,是出生在北京的“90后”,他以加拿大摄影师1920-1929年间拍摄的老北京黑白影像为基础素材,应用人工智能技术相继完成上色、修复帧率、扩大分辨率等工作,生动再现了百年前的北京城。据估计,这段10分钟的视频如果是技术人员采用传统的手工逐帧修复技术,大概需要数十人持续工作几十天才能完成,但借助人工智能技术完成这段影像的修复仅用了一周时间。
图1-2 百年前的老北京影像修复前后画面对比
扫一扫看彩图
我们平时使用的导航软件中有时会听到明星真人语音导航的声音(见图1-3),其实真人配音的录制并不需要太长时间,一种方式是只需要演讲者将21个声母、37个韵母、5个声调组合的不超过3000个语音全部录一次就可以了,所有的句子都可以通过这些基础语音重新合成。有些导航软件还支持将自己的声音录制成语音包,只需要在应用软件的提示下录制若干段关键语音就可以制作自己语音的导航包,过程十分有趣。
图1-3 某导航软件中的语音包
许多智能手机都支持人脸解锁,车站、校园等场所也经常碰到识别人脸的机器人,一种典型的人脸识别方法是通过面部特征点来识别,特征点的排列体现了人脸中眼睛、鼻子和嘴等比较有辨识度的局部形状,理论上特征点越多识别越精准,但对机器的运算能力和算法的设计要求也越高,图1-4所示为76个特征点的人脸标注。
有时候我们会面临特殊的人脸识别问题,比如一旦佩戴了口罩,人脸上可识别的特征点会大幅度减少,从而使得传统的人脸识别技术失效,如图1-5所示。武汉大学的科研人员开发了一个精准戴口罩软件程序,通过给公开数据集中的人脸戴上口罩,构建了1万人、50万张人脸的模拟戴口罩人脸数据集,开发的口罩遮挡人脸识别模型,在测试数据上可达到95%的识别准确率,这就说明,识别戴口罩的人,机器可以做到比人类准得多。
图1-4 人脸识别中的特征点
图1-5 模拟戴口罩的人脸样本
随着人工智能技术的广泛应用,我们生活的各个领域也在发生着变化。借助于语音识别技术,近年各地的中考英语考试中纷纷加入机考环节,如人机对话、口头转述、朗读等,这些环节中的部分阅卷工作也是由人工智能完成的。这些“阅卷老师”由人工专家进行训练,并能够不断地通过学习来改善其阅卷能力。
2020年6月,北京新发地批发市场爆发新冠肺炎疫情,快速精准地寻找到特定时间段内到访过新发地的人员成为疫情防控的重点,利用大数据智能筛查技术,通过地理信息和人员接触关系,在很短的时间内就找出了30多万与疫情相关的接触人员,并在第一时间对他们进行了核酸检测,大数据筛查短信如图1-6所示,当时其中2430人已经离开了北京,通过通信大数据对人员行程轨迹进行深入分析,还能知道这些人曾到访了哪些地方,辅助决策人员根据对疫情的可能扩散情况做出决策和判断。在人工智能技术的帮助下,这一波疫情很快得到了有效控制。
2020年3月,工信部公示了《汽车驾驶自动化分级》推荐性国家标准,意味着我国拥有了自动驾驶标准,随后长安汽车发布了国内首个L3级别的自动驾驶量产车型UNI-T,该型号车俩搭载了地平线的征程二代国产芯片(见图1-7),具备行人、车辆、车道线、交通信号等目标或路况信息的自动检测功能;另外,为了防止司机在驾驶过程中分散注意力,还有读唇语、眼神唤醒屏幕等智能感知功能。随着人工智能技术的不断发展,越来越安全便捷的自动驾驶技术将逐步走进我们的生活。
图1-6 疫情大数据筛查发送的提示短信
图1-7 征程二代国产芯片图
随着人工智能应用的遍地开花,我国已将人工智能作为赢得全球科技竞争主动权的重要战略抓手,不断深入基础理论研究,支持科学家勇闯人工智能科技前沿的“无人区”,努力在人工智能发展方向和理论、方法、工具、系统等方面取得变革性、颠覆性突破。美国斯坦福大学的一份报告显示,2020年,中国在学术期刊上有关AI的论文引用率占比为20.7%,美国为19.8%,这是中国首次高过美国。另据长期专注于数据分析的科睿唯安公司统计,自2012年以来,中国的AI论文数量为24万篇,美国则为15万篇,中国压倒性地多于美国,特别是在图像识别和生成方面,中国取得了极为优异的研究成果,这也成为我们国家科技飞速发展的一个重要标志。
人工智能技术给我们的生活带来了极大便捷,但青少年更应该时刻对新技术具备反思意识,要通过学习和实践来思考人工智能技术的局限和边界在哪里,运用人工智能技术会导致哪些可能的风险,是否有人会使用人工智能技术作恶或犯罪。
早在人工智能这个科学概念诞生之前,在以科幻小说为代表的文学艺术作品中就出现了机器人、人工智慧、人造生命等概念。伴随的是大量的对这些未来技术伦理风险的批判和反思。其中最著名的思考就是美国科幻作家艾萨克·阿西莫夫1950年在《我,机器人》这本书中提出的机器人三定律,实际上就是对人工智能行为伦理准则的思考与尝试,明确指出了人造智慧和人类自身的关系,特别强调了人工智能不能作恶。
2018年和2019年,连续发生了两起波音737Max8飞机故障导致的大型空难,震动了全世界。初步的调查报告表明,事故的罪魁之一很可能是该型号飞机搭载的“机动特性增强系统”,该系统是一个高度自动化装置,可以理解为一种飞机自动驾驶或者智能决策的系统,其启动逻辑由计算机而不是飞行员来判定,可能是程序逻辑设计的缺陷导致了飞机失控。虽然这个系统不能完全认为是一个人工智能系统,但的确具备了利用计算机来代替人类进行决策和控制的功能。在我们憧憬诸如“自动驾驶”这类人工智能技术带来便捷的同时,也一定要了解到不成熟的智能技术所存在的安全隐患。因此我们可以看到,所运用的人工智能技术一旦涉及人类生命安全时,一定是万分谨慎的。
还需要重点关注的是人工智能应用中的隐私保护。以智能音箱或智能手机中的智能助手应用为例,有的同学觉得这些智能助手们应该不会导致隐私的泄露,因为只有用户发出明确的指令(如呼唤智能助手的姓名)时这些音箱才会开始工作。这种认知恰恰是对语音识别技术运行的机制不了解而造成的,试想这些音箱如果不是时时刻刻在聆听周围的声音,又如何能分辨用户在呼唤它的姓名呢?可见,全面了解人工智能技术的运行模式,非常有助于同学们从小就建立起隐私保护的意识,能够有效地判断隐私泄露的风险。
另外,人工智能的局限性与负面影响也需要同学们注意。例如目前个性化的信息推荐会让用户陷入“信息茧房”,无论是阅读偏好还是购物偏好,用户喜欢什么,机器就给他推荐什么,用户的信息获取途径反而会变得狭窄,始终无法跳出自己认知的“舒适区”,机器利用用户行为数据对用户的“画像”甚至超过用户对自身的了解。学习人工智能技术的一个重要方面就是同学们充分认识这个现状,有意识地摆脱人工智能的“负面”影响。本书的目的不仅仅为了让一部分同学在未来能参与到人工智能科技活动中,也是为了让同学们能够适应未来可能出现的越来越智能的世界。
1.除前文介绍的例子外,你还能举出生活中其他应用人工智能技术的例子吗?
2.你能列举出生活中的一些冠名为“智能某某”的技术或者物品其实不算是人工智能吗?
3.你认为哪个(些)职业不会被人工智能取代?为什么?
4.如果让你自己设计一个类似图灵测试这样检验人工智能的标准,你会怎么做?