人工智能是即将到来的技术浪潮的核心。但是,自1955年“人工智能”这个词首次提出以来,它很多时候更像是一个遥远的愿景。以计算机视觉为例,尽管多年来人类一直在努力让计算机识别物体和场景,但实际的进步远未达到预期。传奇的计算机科学教授马文·明斯基在1966年曾聘请一名暑期实习生研究早期的视觉系统,他当时认为重要的进展就在眼前。然而,事实证明他过于乐观了。
在将近半个世纪之后,突破性的时刻才终于到来。 7 2012年,一个名为AlexNet的系统崭露头角。AlexNet的成功源于一种旧技术的复兴,这种技术现已成为人工智能的基础,为人工智能领域注入了巨大活力。对我们在DeepMind的工作来说,它也是不可或缺的。那便是深度学习。
深度学习使用的神经网络大致模仿了人类大脑的神经网络构造。简单来说,这些系统会在其网络被海量数据“训练”的过程中进行“学习”。在AlexNet的案例中,它的训练数据主要由图像构成。图像中的每个红色、绿色或蓝色像素都会被赋予一个数值,由此生成的数组被输入神经网络。在神经网络内部,“神经元”通过一系列带有权重的连接与其他神经元相互关联,这些权重大致反映了信息输入之间的关联强度。神经网络的每一层都会将其接收的信息传递给下一层,从而创建出越来越抽象的表征形式。
然后,一种称为反向传播的技术介入,它负责调整网络连接的权重以优化神经网络。当系统发现错误时,这种调整会反向传播回网络,帮助网络在未来纠正相同的错误。通过不断重复这个过程并微调权重,神经网络的性能会逐渐提高。最终,它将从接收的单个像素开始学习,识别出线条、边缘和形状,最终理解场景中的整个物体。简言之,这就是深度学习。深度学习技术曾一度在人工智能领域受到嘲笑,但最终它攻克了计算机视觉的难题,在人工智能世界掀起了一场风暴。
AlexNet由传奇研究员杰弗里·辛顿及其两名学生——多伦多大学的亚历克斯·克里哲夫斯基和伊利亚·萨特斯基弗共同开发。他们参加了由斯坦福大学李飞飞教授发起的ImageNet大规模视觉识别挑战赛,这项一年一度的竞赛旨在汇集业界力量,共同攻克一个目标:让计算机能够识别图像中的主要物体。每年,参赛团队都会拿出自己最好的模型,相互激烈竞争,通常每一年新模型的准确度提升较上一年都不超过1个百分点。
但在2012年,AlexNet以10%的准确度提升打败了上一年的冠军。 8 这听起来似乎只是一点儿小小的改进,但对人工智能研究人员来说,这已是跨越式的进步,足以区分那些玩具般的研究演示和那些即将对现实世界产生重大影响的突破性成果。那一年的比赛非常激动人心,辛顿和他的团队发表的论文也成了人工智能研究史上被引用次数最多的作品之一。
深度学习让计算机视觉技术无处不在,且运行顺畅。现在,该技术能通过相当于21个全高清屏幕的视觉输入,即每秒约25亿像素的输入,对动态真实世界街景进行分类。这种精确度足以让SUV汽车在繁忙的城市街道中自如穿梭。 9 智能手机能识别各种物体和场景,在视频通话时,视觉系统可以自动模糊背景,突出人物。计算机视觉技术是亚马逊无人超市和特斯拉汽车的基础,推动它们向更自主的方向发展。该技术还帮助视力受损者在城市中导航,引导工厂机器人作业,支持从巴尔的摩到北京的全球各地的面部识别系统,以实现越来越密切的城市生活监测。此外,它还存在于Xbox游戏机的传感器和摄像头、联网门铃和机场登机口扫描仪中。无人机的飞行、脸书上的不当内容自动标记、各种医疗状况的诊察中也都有计算机视觉技术的身影。 10 在DeepMind,我的团队开发的一个系统在阅读眼部扫描结果方面的准确度已达到国际顶级专家医生的水平。
随着AlexNet这一重大突破的出现,人工智能突然成为学术、政府和企业领域的关键议题。杰弗里·辛顿和他的团队被谷歌招入麾下。美国和中国的重要科技公司都将机器学习视为研发工作的核心。在成功开发DQN后不久,我们将DeepMind出售给了谷歌。这家科技巨头迅速在其全线产品中转向了“人工智能优先”的战略。
行业的科研产出和专利数量迅速攀升。1987年,在《神经信息处理系统》这一行业顶级会刊上发表的学术论文仅有90篇。然而,这一数字如今已经飙升至近2 000篇。 11 在过去6年中,仅深度学习相关的论文数量就增长了6倍,若将范围扩大至整个机器学习领域,增长幅度则高达10倍。 12 深度学习的繁荣吸引了数十亿美元的资金流入学术机构以及私营和公共企业的人工智能研究。大约从2010年起,人工智能再次成为舆论的焦点,频频占据新闻头条,并不断拓展技术可能性的边界,其热度和炒作甚至超过了以往任何时候。人工智能将在21世纪发挥重大作用,这已不再是一种边缘或荒谬的观点,而是大势所趋。