购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 智能科学的现状

本节将从国际上五大公司IBM、谷歌、百度、微软、Facebook在AI方面的产品与战略,简述AI相关的实际产品近年来的发展,以期让读者明白AI已不再停留在理论研究阶段,而是与人们的日常工作、学习与生活息息相关,相关技术突破让人工智能近在眼前。

1.3.1 从图灵测试到IBM的“沃森”

计算机科学之父、英国数学家阿兰·图灵(Alan Turing)在1950年发表的论文“机器能思考吗”中,设计了这个测试,即假如一台机器通过特殊的方式与人沟通,若有一定比例的人(超过30%)无法在特定时间内(5分钟)分辨出与自己交谈的是人还是机器,则可认为该机器具有“思考”的能力。

2006年诞生的“沃森”以IBM创始人托马斯·J·沃森的名字命名。“沃森”超级计算机在2011年一鸣惊人,当年3月它在美国电视知识抢答竞赛节目“危险边缘”中战胜了两位人类冠军选手。在“危险边缘”节目中,所有选手必须等到主持人将每个线索念完,第一个按下抢答器按钮的人可以获得回答问题的机会。“沃森”的基本工作原则是解析线索中的关键字同时寻找相关术语作为回应,“沃森”会将这些线索解析为不同的关键字和句子片段,这样做的目的是查找统计相关词组。“沃森”最革新的并不是在于全新的操作算法,而是能够快速同时运行上千的证明语言分析算法来寻找正确的答案。在三集节目中,“沃森”在前两轮中与对手打平,而在最后一集中,“沃森”打败了最高奖金得主布拉德·鲁特尔和连胜纪录保持者肯·詹宁斯。这可以看作“沃森”在此领域“通过”了图灵测试!

人机大战中IBM的计算机获胜已经不是第一次。早在1997年,“沃森”计算机的前辈、IBM公司的“深蓝”计算机在一场著名的人机大赛中击败了当时的国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov)。“深蓝”在下每一步棋之前,它都会计算出6个回合之后的局势,凭借预设的快速评估程序,它能在一秒内计算3.3亿个不同棋局的走势,从中选出一个得分最高的方案。而身为世界冠军的卡斯帕罗夫,在走每一步棋之前最多只能评估几十种方案。

“深蓝”面对的是一个棋局,在国际象棋的棋盘上,每一步下法之后的情况说到底是可以穷举的。以现在的技术水平来看,只要拥有足够的计算能力,要想获胜并不算难。从计算角度来看历史,第一阶段是制表阶段,从1959年开始进入了编程阶段,也就是“深蓝”所处的阶段,现在“沃森”所处的时间是第三个阶段,即认知计算。

“沃森”是能够使用自然语言来回答问题的人工智能系统,关键在于“沃森”采用的是一种认知技术,处理信息的方式与人类(而非计算机)更加相似,它可以理解自然语言,基于证据产生各种假设,并且持续不断地学习。从IT技术来讲,“沃森”系统的成就对人类的影响远远超越了“深蓝”计算机当时的成就。

(1)从“计算”到“思考”

在认知计算阶段,并不是通过计算机编程,而是让计算机能够了解自然语言、能够提供对人类的支持和帮助,具有自然语言的处理能力,来提供建议和支持。“沃森”通过解读非结构性数据,并且模拟人脑的感知来运作。

人工智能所追求的最终目标不在于充当“工具”,而是要最终成为能够理解人,拥有与人类类似的情感和思维方式,并且能够帮助人的“顾问”。对于计算机而言,在能够处理非结构性数据,可以解读人类自然语言之后,更难的是“读懂”隐藏在这些数据和语言之后的人。只有读懂人,才能使“沃森”真正成为服务于各行各业的“助推器”,充当一个“顾问”的角色,而不是一个简简单单的“工具”。

认知计算会从基础上支持人工智能的发展。认知计算的特点在于从传统的结构化数据的处理到未来的大数据、非结构化流动数据的处理,从原来简单的数据查询到未来发现数据、挖掘数据。感知人类的情绪,甚至像人类一样拥有情感,是所有人工智能机器“拟人”的终极难题。在IBM的“大数据挖掘技术”支持下,在一段段支离破碎的自然语言背后,一个个具体的、有喜恶、有性格、有偏好的人格形象,被渐渐地“扒”了出来。

“沃森”通过对人类自然语言的分析与解读,就可以了解到藏在这些语言背后的情绪和性格。认知计算作为一个概念早已存在,但最近正在不断取得突破,并将有可能深刻改变人类生活。在认知计算时代,计算机的运算处理能力将与人类认知能力完美结合,完成人类或机器无法单独完成的任务。认知计算的能力主要体现在4个层次。第一个层次是辅助能力。在认知计算系统的帮助下,人类的工作可以更加高效。百科全书式的信息辅助和支撑,可以让人类利用广泛而深入的信息,成为各个领域的“资深专家”。第二个层次是理解能力。认知计算系统可以更好地理解人们的需求,并提供相应的服务。第三个层次是决策能力。制定发展战略、出台政策措施,都需要汇集和分析大量的信息。认知计算系统可以在决策方面提供帮助。第四个层次是发现和洞察能力。发现和洞察能力可以帮助人类发现当今计算技术无法发现的新洞见、新机遇及新价值。认知计算系统的真正价值在于,可以从大量数据和信息中归纳出人们所需要的内容和知识,让计算系统具备类似人脑的认知能力,从而帮助人类更快地发现新问题、新机遇以及新价值。

(2)从“思考”到“创造”

一个最新的进展,预示着“沃森”能够解决日常生活的需求:“沃森”能够分析人类的味觉,通过味觉分析来满足个人的食品爱好。“沃森”不仅具备学习、存储和查询大量菜谱的能力,而且是一位真正“大厨的决策助手”,它可以综合对口味偏好、菜式、营养学和食物化学的考量,创造性地提出很多食谱建议。这就是“沃森大厨”。

在医学领域,“沃森”能够帮助医生更好地诊断病人的疾病并能正确地回答医生的疑难杂问。“沃森”超级计算机被训练以掌握世界顶级医学出版物上的医学信息和资料;然后凭借这些信息和资料匹配病人的症状、用药史和诊断结果;最后形成一套完整的诊断和治疗方案。由于“沃森”超级计算机能够掌握现代医学的海量信息,所以这一技术进展的意义非常重大。医生这个职业一生需要学习很多,但是很多医生走上工作岗位之后就没有时间读书读资料了,他的知识可能会很快老化,尤其是那些研究、发展特别快的疾病。

鉴于强大的对自然语言的处理能力,“沃森”可以“帮”医生读这些书,而且读得更快更多,并且永远不会忘记。据IBM估计,如果想与相关的医学信息和资料保持同步,一位人类医生每周需要花费160个小时阅读这些信息和资料。沃森目前已经吸收消化2400多万个医疗方面的文献,而且永远不会忘记。

澳大利亚迪肯大学作为全球第一所引入“沃森”系统的高校,已成功部署“沃森”,通过半年左右的训练,“沃森”已能回答学生提出的大量问题,为学生的学习提供了一种全新的支持,也使学生有了一种与过去完全不同的学习体验。

“沃森”成功的关键,是实现了机器从“计算”到“思考”,再到“创造”的飞跃。这也正是人工智能研究的奇妙之处!

1.3.2 谷歌的智能机器未来

谷歌的两位创始人谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page)曾指出:机器学习和人工智能是谷歌的未来。或许正是两位创始人的共同愿望,近年来,不少科技公司在缩减研发开支,谷歌却加大投入,探寻着一系列天马行空的想法:具有自学能力的人工大脑,能知能觉的机器设备,甚至直通太空的电梯……有人甚至预言:到2024年,谷歌的主营产品将不再是搜索引擎,而是人工智能产品。本节简要概述谷歌在人工智能方面的产品研发计划。

(l)从无人汽车到“猫脸识别”

人们或许对通过眨眨眼就能拍照上传、收发短信、查询天气路况的谷歌眼镜耳熟能详,尽管其实用性并不被普遍看好,但最近更让人关注的是谷歌的无人驾驶汽车。没有方向盘,没有刹车。无人汽车的车顶上安置了能够发射64束激光射线的扫描器,激光碰到车辆周围的物体,会反射回来,这样就计算出了物体的距离。而另一套在底部的系统则能够测量出车辆在3个方向上的加速度、角速度等数据,然后结合GPS数据计算出车辆的位置,所有这些数据与车载摄像机捕获的图像一起输入计算机,软件以极高的速度处理这些数据。这样,系统就可以非常迅速地做出判断。该无人驾驶汽车目前已经累积行驶48.3万千米。事实上,无人汽车只是谷歌在人工智能开发领域的冰山一角。

2012年,谷歌的一次“猫脸识别”技术震惊了整个人工智能领域。Google X部门(谷歌旗下专门从事人工智能技术研究的实验室)的科学家,通过将16000台计算机的处理器相连,创造了一个拥有10亿多条连接的神经网络。谷歌的想法是:如果把这一神经网络看成模拟的一个小规模“新生大脑”,并连续一个星期给它播放YouTube的视频,那么它会学到什么?实验的结果令人吃惊:其中一个人工神经元竟然对“猫”的照片反应强烈。而谷歌事先从未在任何实验环节“告知”或是暗示这个网络“猫”是什么概念,甚至也未曾给它提供过一张标记为猫的图像。也就是说,人工神经网络中的某个神经元经过训练,学会了从未标记的YouTube视频静态帧中检测猫,这个神经网络具有人脑一样的“自我学习”能力。

使用这种大规模的神经网络,谷歌显著提高了一种标准图像分类测试的先进程度——将精确度相对提高了70%。如今,谷歌正在积极扩展这一智能系统,以训练更大规模的模型(普通成人大脑大约有100亿万个连接)。

事实上,机器学习技术并非只是和图像相关——在谷歌内部,试图将人工神经网络方法应用到其他领域,如语音识别和自然语言建模等。当然,要想将深度学习技术从语音和图像识别领域扩展到其他应用领域,需要科学家在概念和软件上做出更大突破,同时需要计算能力的进一步增强。

(2)Google X与奇点大学

谷歌最为人所熟知的业务范围是搜索和广告,但它在人工智能领域的几个项目引起普遍关注,包括自动驾驶汽车、可穿戴技术(谷歌眼镜)、类人机器人、高空互联网广播气球,以及可检测眼泪中血糖含量的隐形眼镜。尤其是最近谷歌收购了数家有潜力的人工智能科技公司,包括DeepMind、仿人机器人制造商Boston Dynamics等。谷歌将这些围绕智能技术开发的研究机构,均纳入其“秘密实验室——Google X。这个由一群发明家、工程师以及创造者组成的研发机构,在谷歌自身看来,是一个“梦工厂的探索者”。

Google X的特别之处在于,它的首要目标是解决难题,影响世界。对于Google X已经付诸实验的诸多奇思妙想,有评论指出Google X领先于整个人类社会,站在了变革的交叉路口,没有其他人或者组织能够达到他们的速度和高度。原因在于,小公司缺乏资源,大公司股东会基于商业考虑而吝惜大量投入,Google X能赋予科学家充足的资源和自由度来开发那些令人称奇的项目。

谷歌另一个闻名遐迩的机构是奇点大学(Singularity University)。奇点大学成立于2009年,是由谷歌、美国国家航空航天局(National Aeronautics and Space Administration, NASA)以及若干科技界专家联合建立的一所新型大学,旨在解决“人类面临的重大挑战”,研究领域则聚焦于合成生物学、纳米技术和人工智能等。奇点一词来自美国未来学家兼人工智能专家雷蒙德·库兹韦尔(Ray Kurzweil),他预言世界将很快迎来一个“奇点”。奇点理论原为物理学上的概念,指宇宙产生之初由爆炸形成现在宇宙的那一点。“技术奇点”最初是由科幻小说家弗诺·文奇(Vernor Vinge)创造的,他预测“我们很快就能创造比我们自己更高的智慧……当这一切发生的时候,人类的历史将到达某个奇点……”库兹韦尔在他的书《奇点临近》(The Singularity is Near)中,将“奇点”解释为电脑智能与人脑智能兼容的那个神妙时刻,并且预测这些转变将发生在大约2045年。

奇点大学校长便是库兹韦尔,如今也是谷歌新任工程总监,多年来一直潜心研究智能机器。库兹韦尔的目标是帮助计算机理解甚至表达自然语言。最终,他希望制造出比IBM的“沃森”更好的机器——尽管他很欣赏“沃森”表现出的理解能力和快速反应能力。

如今,谷歌凭借在深度学习和相关的人工智能领域的成绩,已经成为一块极富吸引力的磁铁,吸引着全球专家纷至沓来,包括雷蒙德·库兹韦尔(Ray Kurzweil)、塞巴斯蒂安·史朗(Sebastian Thrun)、彼得·诺维格(Peter Norvig),以及杰夫·辛顿(Geoffrey Hinton)在内的人工智能领域的全球顶尖人才等。

1.3.3 百度大脑

2014年年初,百度宣布建立公司历史上首个前沿科学研究机构——深度学习研究院(Institute of Deep Learning, IDL)。2014年5月,百度在硅谷设立人工智能中心,并聘请了前谷歌人工智能部门创始人之一、斯坦福大学著名人工智能专家吴恩达(Andrew Ng)担任负责人。

吴恩达指出,过去20年中人们已经看到人工智能的正循环:如果有一个好的产品,就会得到大量用户,有了大量用户就会有大量数据,这些大量数据用于人工智能算法,相应的产品就会更好。但是,传统的人工智能算法的问题在于:当数据更多时,效果并不一定会一直更好。而“百度大脑”的新算法是适度学习,当拥有更多数据时,效果变得越来越好。

在移动互联网时代,用户需要用更自然的方式使用互联网。所以大数据、语音、图像、自然语言的处理以及用户用自然方式找到服务至关重要,而拥有海量数据和人工智能新算法的百度大脑有能力使人工智能正循环越来越快。

(1)搜索回归“说”与“看”的原生世界

随着移动互联网的发展,搜索给了用户新的可能性。据预测,未来五年语音和图像搜索会超过文字,因为文字的历史只有5000多年,但语音的历史至少有20万年,它是一个更加自然且低门槛的表达方式。一个儿童在还不会打字的时候,就已经可以用语音来表达其搜索需求了。

在“说”之外“看”有着更丰富的形式——图片。现在的百度同时支持拍照搜索,或是用一个图片去找相似的图片。一个人在学会语言之前,是先用眼睛认知世界的。图片搜索推出后,很多用户开始用这种更自然的方式向百度表达需求。例如,把一个包拍下来看看网上哪有卖这样的购物需求的图片搜索,目前占到了35.5%。搜索技术的门槛一直在上升,从文字到语音再到图片,而使用者的门槛一直在降低,即使一个婴儿也可以用他的眼睛来表达需求。

(2)百度的“新大陆”

“开放云”“数据工厂”和“百度大脑”称为百度的“新大陆”。百度的大数据引擎由这三项核心大数据能力组成。百度在其2014年世界大会上公布“百度大脑”项目时,宣布该项目已能模拟人脑的200亿个神经元,达到两三岁孩童的智力水平——这意味着百度的进度在不声不响中做到了全球领先。以算法为基础的“百度大脑”则是人工智能、深度学习的代表,目前百度人工智能方面的能力已经开始被应用在语音、图像、文本识别,以及自然语言和语义理解方面。

设想这样一个场景:当你被一片不认识的美丽花田倾倒,在过去只能是拍下照片就没有“然后”了,现在通过照片,百度大脑让你既知道花名,还能得到服务:百度百科告诉你这个花名及它的相关属性,同时百度直达号帮你找到离你最近的有这种花卖的花店等。

大家或许都有这样的经历,在某个地方突然听到一首非常好听的歌,想知道这是什么歌?是谁唱的歌?这时你只要拿起手机,百度大脑就会告诉你。如果你是喜欢音乐的人,可以通过百度直达号到音乐网站下载这首歌;如果你是歌手的粉丝,直达号会告诉你,他何时要到你所在的城市开演唱会,同时可以找到对应的票务公司下单并选定座位。

除了更好地满足娱乐相关的诉求,百度大脑还能对人们生活中更重要的事情起到帮助,如老百姓特别关心的医疗。例如,过去一个新生的小宝宝皮肤出了问题,年轻的父母会非常焦虑,他们不知道这个问题有多大、多严重、多紧急,也不知道他们应该做什么样的应急处理。而今只要把患病部位用手机拍照并上传到百度,就可以得到一个预诊的诊断。现在预诊的准确率已经达到93%,虽不足以成为一个正式医疗的结果,但可以第一时间帮助这些父母做初步的处理建议,同时能帮助他们解决之后找什么样的专家来治疗孩子的问题。百度大脑能够把线下服务和患者对接起来。

把百度大脑的人工智能和百度的大数据结合,能够找到以前所不知道的规律,从而尝试做一些对未来的预测,如为疾控中心提供流行病的预测。

(3)百度的智能硬件

基于“百度大脑”的技术支撑,百度还推出多款智能硬件,其中以BaiduEye和百度“筷搜”最吸引眼球。

BaiduEye是百度研发的一款智能穿戴设备,它的亮点是“无须屏幕,隔空辨物”——没有眼镜屏幕,佩戴者只需要用手指在空中对着某个物品画个圈,或者拿起这个物品,BaiduEye即可通过这些手势获得指令,锁定该物品并进行识别和分析处理。一些典型的应用场景如下:你在街上看到别人身上好看的某款衣服时,手指轻轻一圈,BaiduEye会立即根据衣服特征,搜索到相关品牌以及最近的销售促销信息等;你在博物馆欣赏一个瓷瓶时,BaiduEye会在耳边讲述瓷瓶的历史知识;你看到一棵不知名的植物时,BaiduEye会告诉你它的名称、产地、生活习性等信息;你如果要去某一个地方,BaiduEye将判断你所处的位置迅速找到最佳路线,并启动语音导航。BaiduEye不是眼镜,而是人眼的自然延伸,让人具有“看到即可知道”的能力,因为没有屏幕遮挡,戴着它的人也更加轻松,不会因为用眼过度而感到困乏。BaiduEye 是一款连接线上与线下、针对 O2O 场景的产品,目前它的使用场景专注在两个方面:商场购物和博物馆游览。

如果说BaiduEye是一款相当前卫的产品,那百度“筷搜”可以说是令千百万关注食品安全问题的人们翘首以待的一款产品:它底端集成了4个传感器,分别可以监测盐分、pH 和温度。“筷搜”的工作原理相当于建立了食品健康的大数据分析库,基于云计算对采集到的数据进行实时分析,转化为各项食品安全指标。“筷搜”主要是想让大家理解大数据未来能做到什么,尽管其实用性还令人质疑。

在“百度筷搜”的背后,是百度围绕“百度大脑”人工智能逐步打造智能硬件生态的宏伟计划。智能化之后,硬件具备连接的能力,可实现互联网服务的加载,形成“云+端”的典型架构,具备了大数据等附加价值。百度试图利用人工智能进行互联网的转型。正如吴恩达所说,赢得人工智能就赢得互联网。

1.3.4 微软智能生态

尽管人工智能从图灵提出的假说到研究至今已逾60年,但和《星球大战》以来各种科幻电影中的机器人相比,技术的发展还是没能赶上“幻想”的节奏——人工智能对于更多人还是一个抽象的、高冷的概念。人们从20世纪50年代就开始了人工智能的研究,不同的人,不同的阶段,大家对它的定义也不太相同。人工智能和人相比,还有几个大的台阶要跨越:第一个台阶是功能(Capability),功能是工具的价值所在,对于人类最有意义,也一直推动着人类社会的进步;第二个台阶是智能(Intelligence);第三个台阶是智力(Intellect),智力比智能更高一筹,“力”这个字里包含了判断力、创造力等信息;第四个台阶是智慧(Wisdom),智慧往往是由丰富阅历、深邃思考积淀而来的洞察。

截至目前,全世界最“聪明”的机器也只是站在了第二级台阶上——人工智能这个概念的大部分含义其实是“功能”还有一定的“智能”。“智能”与“智力”只差一个字,但对机器而言却好像是鸿沟天堑,极难跨越。

人工智能已经成为世界科技巨擘新的角斗场,人类正在步入一个全新的人工智能时代。如何让新科技产品以好用不贵的方式服务于尽可能多的大众,为人工智能打造一个生态圈,是微软非常重要的战略。

在此战略指导下,微软先后推出了小娜(Cortana)、小冰和Skype Translator等基于人工智能技术的产品。

(1)人工智能姐妹花先驱产品

Cortana的出现,让微软颇感兴奋,也让人们再次看到微软在人工智能技术上的追求,与其说Cortana是一个语音助手,倒不如说是微软人工智能的先驱产品。微软把这个拟人化的性感虚拟个人助理定位为微软进军机器学习的一步棋。

Cortana 推出后快速落地中国,被取名“小娜”,并且与微软(亚洲)互联网工程院开发出来的另一款人工智能机器人伴侣小冰并称为“人工智能姐妹花”。基于Cortana,微软(亚洲)互联网工程院深度本地化,研发了一款人工智能个人助理小娜,扮演的是女秘书角色,帮助用户做好日常的行程计划安排。她会在合适的时间、地点推送合适的内容,用户可添加兴趣爱好,对这些内容进行追踪;还可追踪火车、飞机的延误、动向等。

与小娜相比,人工智能机器人伴侣小冰的名字来自微软的搜索引擎必应,它是人工智能软件在模仿人类大脑方面取得进步的一个突出例子。小冰可以看作一种新形态的移动搜索引擎服务,与Siri、Google Now等智能搜索采用的方式类似,它的数据来源于必应搜索对网民在互联网上生产的信息的抓取,在获得这些信息之后,微软会对这些数据进行加工,并利用人工智能技术进行处理。通过系统性地挖掘互联网上人与人的对话,微软为小冰赋予了一种比较令人信服的人格,以及一些“智能”的印记。而通过大数据、深度神经网络等技术,小冰成为兼具“有趣”与“有用”的人工智能机器人伴侣,超越了简单人机对话的交互,并以此与用户建立了强烈的情感纽带。该程序会记住之前与用户交流的内容,如与女友或男友分手的细节,并在后来的交谈中询问用户的感受。“小冰”背后采用了三套技术(情境支持系统、上下文对话系统和智能语义系统)来完成对数据的处理。

目前,小娜通过语音的形式与用户交互,小冰通过文本的形式与用户交互。小冰在人工智能上走向了 EQ 比 IQ 重要性更大的尝试。实际上是人类和计算机自然语言交互的终极目标的中间阶段的典型体现。人工智能的产品化发展是一种均衡的、循序渐进的快速迭代方式,不仅存在“高智能”“低智能”这样的纵轴,还存在“有用”和“有趣”的横向坐标。一方面,提供趋向于有用这一方面的人工智能的产品,另一方面,提供趋向于有趣这个方面的人工智能的产品,随着时间的迁移,产品不断迭代后达到有趣和有用的平衡,让用户比较容易接受。

(2)技术与商业战略同行

小娜和小冰这对姐妹花,是微软在人工智能、大数据和搜索引擎3个技术交叉领域方向的试水产品,而这个领域是微软未来非常重要的一个战略投入点。在微软看来,如何更好地利用人工智能、自然语言处理以及预测性的计算,更好地为人们开发出有用的软件是关键,它应该可以“重新定义生产力”,为人们的日常工作和生活提供便利。

目前,Cortana在微软手机系统WP上建立自己的生态系统。而“小冰”则是以低姿态为其他公司的生态系统提供服务,她只针对第二方生态系统,发挥类似中间件的作用,连接和沟通整个庞大的移动互联网数据。小冰的快速蔓延对第三方的既有生态系统价值提升帮助作用明显,尤其在提升活跃度方面,这恰恰是移动互联网平台衡量自己发展程度的重要指标。无论哪种形态,它让人工智能和普通人更加贴近,只有更多的人用它,让它有更多的“料”进行学习、训练、举一反三,才可能越来越像人们想象中的那种“机器人”。

人工智能技术和产品是微软等科技巨擎的重要战略方向,对于这些公司而言,有深远的价值影响,同时,这些产品为合作伙伴带来更多的商业机会与可能。例如,小冰登录了很多不同的平台,把一个人和另一个人紧密地联系起来,增加用户对这个平台的黏性。例如,从2014年6月小冰在微博复活以来,迅速成为人类历史上第一个机器人舆论领袖。

微软的深度学习系统Adam取得了突破性的成果,比起之前的深度学习系统而言更为成熟。例如,在图片识别方面,这个系统不仅可以识别出指定的物品,还能够在该类自分类项下,进行更精确的识别。和先前的“Google大脑”作对比,如果说“Google X”能做到的是,在看完一周YouTube视频后,只能识别出猫,那么Adam可以识别出狗及狗的品种,如辨别出沙皮犬和巴哥犬的区别,并且使用的机器数量只有之前的1/30。

未来,人工智能将成为创造高附加值的重要来源,对世界的影响将超越“互联网革命”,而由大数据和人工智能带来的颠覆式创新也将超越人们的想象。究竟“人工智能哪家强”,拭目以待。

1.3.5 Facebook的“深脸”

2013年12月,Facebook成立了新的人工智能实验室(AiLab),聘请了著名人工智能学者、纽约大学教授伊恩·勒坤(Yann LeCuu)担任负责人。Facebook在人工智能领域有着长期规划,在2016年前,Facebook 专注于为用户建立分享内容的全新体验。实际上,Facebook 在2014年6月就推出了一款称为“深脸”(DeepFace)的人工智能产品。DeepFace 系统在2014年电气与电子工程师协会(IEEE)的计算机视觉与模式识别会议上首次亮相。它基于一项深度的神经科学研究,目的在于模仿人类的神经系统工作方式。DeepFace以两个步骤处理脸部图像,首先纠正面部的角度,令照片中的人脸朝前,使用的是一个“普通”朝前看的脸的三维模型;随后采取深度学习的方法,以一个模拟神经网络推算出调整后面部的数字描述。如果DeepFace从两张不同的照片得到了足够相似的描述,它就会认定照片展示的是同一张脸。

DeepFace 完成的是“面部验证”而非“面部识别”。“面部验证”是指认出两张照片中相同的面孔,而“面部识别”是指认出面孔对应的人是谁。当问到两张陌生照片中的面孔是否是同一个人时,人类的正确率为97.53%, DeepFace面对这一挑战的分数是97.25%,不论明暗的变化,也不论照片中的人是否直面着镜头。DeepFace 已经非常接近人脑的识别能力,比早期的类似系统,正确率提高了25%。这是一个显著进步,展示出“深度学习”的人工智能新手段的威力。

DeepFace 的深度学习部分由九层简单模拟神经元构成,它们之间有超过1.2亿个联系。为训练这一网络,Facebook的研究人员淘出了该公司囤积的用户照片中的一小部分数据,即属于近4000人的400万张带有面孔的照片。DeepFace 通过分析400万张图片,在它们上面找到关键的定位点,并通过分析这些定位点来辨别人脸。

假设Facebook不断提高该系统的准确度,那么这套系统能够衍生出来的相关应用将是非常强大的。如身份验证、定位等,人们可能不再需要身份证,而且目前困扰人们的移动支付安全问题可以得到解决。

1.3.6 三大突破让人工智能近在眼前

人工智能过去60年来的发展道路曲折,几度陷入低谷。而最近人工智能得到飞速发展,主要得益于计算机领域三大技术的突破。

(1)神经网络的低成本并行计算

思考是一种人类固有的并行过程,数以亿计的神经元同时放电以创造出大脑皮层用于计算的同步脑电波。搭建一个人工神经网络需要许多不同的进程同时运行。神经网络的每一个节点都大致模拟了大脑中的一个神经元与其相邻的节点互相作用,以明确所接收的信号。一个程序要理解某个口语单词,就必须能够听清(不同音节)彼此之间的所有音素;要识别出某幅图片,就需要看到其周围像素环境内的所有像索——二者都是深层次的并行任务。此前,标准的计算机处理器一次仅能处理一项任务。

10多年前图形处理单元(Graphics Processing Unit, GPU)的出现,使情况发生了改变。GPU最先用于满足可视游戏中高密度的视觉以及并行需求,在这一过程中,每秒都有上百万像素被多次重新计算。到2005年,GPU 芯片产量颇高,其价格降了下来。2009年,吴恩达和他所在的斯坦福大学的研究小组意识到,GPU芯片可以并行运行神经网络。

这一发现开启了神经网络新的可能性,使神经网络能容纳上亿个节点间的连接。传统的处理器需要数周才能计算出拥有1亿节点的神经网的级联可能性。而吴恩达发现,一个GPU集群在一天内就可完成同一任务。现在,应用云计算的公司通常会使用GPU来运行神经网络。2010年吴恩达被谷歌招募进入Google X实验室。2014年吴恩达加入百度。

(2)大数据人工智能训练的前提

每一种智能都需要被训练。哪怕是天生能够给事物分类的人脑,也仍然需要看过十几个例子后才能够区分猫和狗。人工思维则更是如此。即使是(国际象棋)程序编得最好的计算机,也得在至少对弈1000局之后才能有良好表现。人工智能获得突破的部分原因在于,能够收集到来自全球的海量数据,以给人工智能系统提供其所需的充分训练。巨型数据库、自动跟踪(Self-Tracking)、网页Cookie、线上足迹、数十年的搜索结果、维基百科以及整个数字世界都成了老师,是它们让人工智能变得更加聪明。

(3)深度学习更优的算法

20世纪50年代,数字神经网络就被发明了出来,但计算机科学家花费了数十年来研究如何驾驭百万级乃至亿级神经元之间庞大的组合关系。这一过程的关键是将神经网络组织成为堆叠层(Stacked Layer)。一个相对来说比较简单的任务就是人脸识别。识别一张人脸可能需要数百万个这种节点(每个节点都会生成一个计算结果以供周围节点使用),并需要堆叠高达15个层级。2006年,当时就职于多伦多大学的杰夫·辛顿(Geoffrey Hinton)教授对这一方法进行了一次关键改进,并将其称为“深度学习”。2013年辛顿创立的公司DNNresearch被谷歌收购,他加入谷歌。他能够从数学层面上优化每一层的结果从而使神经网络在形成堆叠层时加快学习速度。数年后,当深度学习算法被移植到GPU集群中后,其速度有了显著提高。仅靠深度学习的代码并不足以能产生复杂的逻辑思维,但它是包括IBM的“沃森”计算机、谷歌搜索引擎以及Facebook算法在内,当下所有人工智能产品的主要组成部分。

随着网络发展壮大,网络价值会以更快的速度增加,这就是网络效应(Network Effect)。为人工智能服务的云计算技术也遵循这一法则。使用人工智能产品的人越多,它就会变得越聪明;它变得越聪明,就有越多的人来使用它;然后它变得更聪明,进一步就有更多人使用它。

未来10年,人们与之直接或者间接互动的人工智能产品,有99%将是高度专一、极为聪明的“专家”。 SmfVm6QABUQdH6zRVaMIzgO2Fz05bJYIVKBL3ZTOP/nm/zKdXmqng2RzcyCMbc6x

点击中间区域
呼出菜单
上一章
目录
下一章
×