从1995年开始,新的“寒冬”开始降临。我们的卷积网络没有被采纳,更没有被应用于其他领域。约书亚·本吉奥回到蒙特利尔,只保留了实验室的兼职身份;杰弗里·辛顿离开多伦多去伦敦建立了一个理论神经科学实验室;其他一些人同样选择了离开。留下的人仍然相信卷积网络的未来。为什么机器学习团队对神经网络的兴趣下降了?这是一个谜,可能只有科学史学家和社会学家能够解开这个谜团。神经网络基本上成了没人愿意谈及的话题,卷积网络更是成了大家口中的笑话。他们说这项技术太复杂了,除了杨立昆没人能让它发挥作用。这简直就是胡说八道。
或许是技术屏障阻碍了它的传播。在计算方面,卷积网络需要大量的投入,但在当时,计算机不仅速度慢而且还很昂贵。同时,用于训练计算的数据集太小——当时还没有发生信息爆炸,因此,研究人员必须自行收集数据,这无疑限制了应用程序的开发。而神经网络软件(如SN)所需的数据必须由研究人员从头到尾亲自手写,这又需要大量的时间投入。此外,AT&T不允许我们将SN神经网络模拟器以开放源代码的形式发布出去,即便这样可以加速人们接受卷积网络。在那个时代,企业都在自顾自地发展,只考虑自身利益。
1991年,莱昂·博图获得了博士学位,后加入了贝尔实验室。因为他不喜欢美国的生活,所以在一年后回到法国,重新经营以前他与几个朋友创建的公司——Neuristique。Neuristique公司推出了SN的商业版,为那些希望使用神经网络的公司提供服务。它的系统运行得太好了,以至潜在客户竟对此产生怀疑:因为公司虽然成绩斐然,但为客户提供咨询意见的专家却说该公司所做的事情是“不可能”实现的!公司经营了几年后,莱昂重新燃起回归科研领域的念头。于是,他转让了公司,再次回到贝尔实验室,并决定留在美国。
当时机器学习领域的学者大多不愿意研究神经网络,他们更偏爱SVM和“核方法”。具有讽刺意味的是,核方法是由我们实验室内部的同事伊莎贝尔·居永(Isabelle Guyon)、弗拉基米尔·瓦普尼克和伯恩哈德·伯泽尔(Bernhard Boser)于1992—1995年发明的,其核心内容在1995—2010年成为研究机器学习的主要方法。当时另一套被机器学习领域采纳的方法——提升方法(boosting),也出自贝尔实验室。它是由另一个部门的同事罗布·夏皮尔(Rob Schapire)和约阿夫·弗罗因德(Yoav Freund)开发的。我们与他们的关系都不错,大家可以据此想象一下当时我们实验室内部智力辩论会的场景。神经网络的研究就这样被隐于幕后,度过了将近15年的寒冬。
1995年,拉里·杰克尔仍旧对卷积网络的未来充满信心,并对其他人更倾向于SVM的事实感到难过。弗拉基米尔·瓦普尼克是个数学家,他喜欢那些能够用数学定理来确保运行的方法,不喜欢神经网络,因为后者从理论的角度来解释时显得过于复杂。拉里决定跟他打两个赌。第一个是,拉里打赌在2000年3月14日之前会出现一个数学理论来解释为什么神经网络可以完美运行,瓦普尼克则持相反的观点。这个赌局还有一个追加条款:解释卷积网络的数学理论必须是由瓦普尼克之外的人提出的,否则就算瓦普尼克赢了赌局。换句话说,如果拉里或其他人办不到,最好的方法就是激励瓦普尼克发展这个理论。
第二个是,弗拉基米尔·瓦普尼克打赌在2005年3月14日之后将没有人会再使用神经网络,拉里则持相反的观点。他们签订了赌约,我作为证人也签了名字(见图2-4)。每个赌局的赌注都是在一家高档餐馆吃一顿晚餐。
结果他们要兑现两顿晚餐,因为拉里输了第一局,瓦普尼克输了第二局,而我作为证人免费享用了两顿晚餐。
图2-4 拉里·杰克尔和弗拉基米尔·瓦普尼克于1995年的赌约
2001年,莱昂和我终止了DjVu项目的研究。后来在长达5年多的时间里,我们基本没有再涉足机器学习领域的研究,只是发表了几篇我们在20世纪90年代下半程的工作细节的长文章。于我而言,这些文章就像是一篇篇绝唱:业界不再对神经网络感兴趣,我们却依旧在向业界解释如何使用它们。1998年,我们在著名杂志《电气与电子工程协会会刊》( Proceedings of the IEEE )上发表了一篇后来广为人知的论文,题目为《基于梯度学习的文档识别》,作者为杨立昆、莱昂·博图、约书亚·本吉奥和帕特里克·哈夫纳。 [1] 这是一次全新的、教学性的、全面性的尝试。
论文详细阐述了如何使用卷积网络,提出了通过组装可区分的参数模块来构建一个学习系统的想法。此外,它还描述了一个全新的技术——图形处理网络,这项技术主要用于训练那些针对图形操作模块的系统,而传统的神经网络仅能操作数字表格。我们同样展示了如何建立以及训练一个字符识别系统。1998—2008年,这篇论文的影响力还十分有限,每年仅有几十次引用量。但从2013年开始,引用量开始以指数级增长。仅2018年一年,就有5400次引用。现在许多人都把它视为卷积网络的开山之作,尽管在此前10年,我们已经发表了多篇文章。2019年,它成为我的主要代表作,引用数量超过了20000次。
2001年年底,互联网泡沫开始爆发。AT&T通过光纤和同轴电缆向所有家庭提供互联网和电视信号的计划没能说服华尔街,公司股票下跌。这对我们来说可不太妙:我们出售DjVu之后获得的股票期权变得一文不值。时任AT&T实验室副总裁的拉里·拉比纳(Larry Rabiner)是一位语音识别领域的先驱,他宣布将在三个月后退休,尽管他还没有到退休的年纪。因为我足够了解他对研究和对他为之奉献了整个职业生涯的实验室的感情,所以我有理由相信这是“世界末日”的一个预警。于是,我开始悄悄为自己谋求后路——寻找另一份研究职位。
同年12月,预警应验了。我们接到通知,公司将再次被拆分为若干部分,并裁去一半的研究人员。因为我已经在日本NEC公司得到了一个职位,所以我想成为被裁的一分子。我对公司说:“我不在乎公司对什么领域感兴趣,我会继续研究视觉、机器人技术和神经科学。”之所以这么说,主要还是为了让它解雇我,它也的确这么做了,因此我十分感谢它。2002年年初,我与莱昂、弗拉基米尔·瓦普尼克等一道离开AT&T,加入NEC普林斯顿研究中心。该中心是久负盛名的NEC的实验室,我们在那里重新开始了神经网络的研究。
在离开AT&T之前,我给实验室的成员拍了几张照片(见图2-5)。
图2-5 AT&T实验室研究图像处理的部门合影
1996—2002年,我是这个实验室的负责人。站着的人从左到右分别是:弗拉基米尔·瓦普尼克、莱昂·博图、杨立昆、约恩·奥斯特曼、汉斯——彼得·格拉夫。坐着的人从左到右分别是:埃里克·科萨托、帕特里夏·格林、黄福杰(音译)和帕特里克·哈夫纳。瓦普尼克、莱昂、格拉夫、科萨托和黄福杰于2002年年初和我一起加入了NEC。
那时,弗拉基米尔·瓦普尼克的名声和影响力达到了顶峰。我想拍一张令人难忘的照片,同时跟他开个小玩笑。我在一块白板上写了以他的名字命名的机器学习理论的公式,他就是因为这个公式被世界熟知。我让他站在白板前,他也很高兴能在自己的杰作前留影。但是在公式的下面,我还写了一句话“All your bayes are belong to us”(“你所有的贝叶斯都属于我们”)(见图2-6)。这是一个很烂的文字游戏,因此我有必要解释一下。当时在互联网上流传着一个词——模因 ,用以委婉地嘲笑日本电子游戏《零翼战机》中十分草率地将日语对话翻译为英语的事情。游戏中有一个征服银河系的人物,他用不怎么标准的英语说:“How are you gentlemen ! All your base are belong to us. You are on the way to destruction.”其大概意思是:“先生们,你们好吗?你们所有的基地都是我们的了。你们正在走向毁灭。”这句话十分好笑,因此出名了。想要弄明白我的调侃,还要知道另外一件事:瓦普尼克的机器学习理论方法存在一个竞争对手,这个竞争对手使用的理论方法是基于贝叶斯定理(Bayes theorem)创立的。贝叶斯定理是一个将联合概率和条件概率结合起来的公式,同样是以其发明人——18世纪英国数学家和牧师托马斯·贝叶斯(Thomas Bayes)——的名字命名的。瓦普尼克不喜欢贝叶斯理论,认为它是“Vrong”的(“错误”的英文单词是wrong,瓦普尼克的英语发音带有俄语口音)。因此,我借用那个著名的模因梗玩了一个恶作剧,用Bayes代替了Base,以开玩笑的方式让瓦普尼克成为征服机器学习星系的皇帝!2002年,我把这张照片贴在了我的个人主页上,后来它竟变成了瓦普尼克的“官方”照片,瓦普尼克的维基百科主页引用的就是这张照片。这很有意思,因为我觉得瓦普尼克并不知道这个笑话的微妙所在,当然也不会知道它的语法并不准确。
图2-6 2002年的弗拉基米尔·瓦普尼克
他因这张与白板上的学习理论公式合影而出名。殊不知,这是一个很烂的文字游戏,源于当时流行的网络模因。
在加入NEC的两个星期之后,我接到了时任谷歌董事会主席兼总干事的拉里·佩奇(Larry Page)的电话。当时的谷歌是一家只有600名员工的初创公司,但是所有人都在谈论它、使用它的服务。拉里希望我能去谷歌担任研究室的负责人。他了解我,因为他很钦佩我之前开发的DjVu。我应邀参加了面试,谷歌也给了我职位,只是最终我没有接受邀约。一方面是因为我的家人不愿意搬到加利福尼亚;另一方面,尽管这个职位很有吸引力,但在做了6年的部门领导和应用研究项目后,我更愿意回到基础研究领域,继续研究机器学习、神经网络、神经科学和机器人技术。我十分清楚自己无法在一个只有600人、还没有实现盈利的初创公司中实现梦想,尤其是当我身处一个领导者的职位时。
可令我意想不到的不是,NEC在这件事过去一年之后遇到了经济危机,它开始给普林斯顿的实验室施压,要求实验室转向研究更容易变现的实际应用。我们也因此错过了一个又一个物理学家、生物学家和视觉研究人员。NEC的管理层也向我们表明公司对机器学习并不感兴趣,他们解雇了实验室主任,让一位没有研究经验的管理人员坐上了那个位置。这无疑是解散我们小组最稳妥有效的方法。
之后,我又在NEC待了18个月,并于2003年去了纽约大学做教授。我曾向好几所院校投递简历,并收到了伊利诺伊大学厄巴纳——香槟分校和芝加哥大学丰田科技学院提供的职位。但一直没有得到纽约大学的回复,我还为此担忧了一段时间。
然后我联系了建议我投递简历的人,他感到很惊讶:“你投简历申请了?我们没收到!”原来,学校管理人员的计算机出了问题,一半申请人的信息都丢失了。弄清原委后,纽约大学为我组织了一次面试。那天,我首先做了工作经历报告。计算机学院的院长理所当然地在听众席中,她叫玛格丽特·赖特(Margaret Wright),是运筹学领域的一位权威学者。我认识她,因为她也曾就职于贝尔实验室,而且在几年前,我在加州大学伯克利分校的一次研讨会上与她发生过争论。当时她认为运筹学的一些出色发现将会应用于机器学习,而我不同意。我真希望她忘记那次不愉快的经历,然而上帝并没有听见我的祈祷。在我的报告结束时,她提出了一个与当年那场辩论会有关的问题。那时我以为这个职位与我无缘了,但事情并没有按我以为的方向发展,因为她说从我们当时的讨论中获益匪浅!我于2003年9月被纽约大学聘为教授,同时我也坚定了重启神经网络研究并证明它的有效性的研究目标。
20世纪90年代末以来,我一直坚信卷积网络的下一个闪光点在图像识别领域。为此,我于1997年在CVPR上宣读了一篇与图像识别有关的文章,可当时并没有引起太多人的注意。但是深耕于此领域的人,例如伊利诺伊大学的戴维·福赛思(David Forsyth)等都知道机器学习将在计算机视觉领域中扮演至关重要的角色。他邀请我参加一个在西西里岛举办的研讨会,与相关领域内的著名学者一起对话。会上,我遇到了当时任职于伊利诺伊大学(现执教于巴黎高等师范学院)的让·蓬斯(Jean Ponce)、卡内基·梅隆大学的马夏尔·埃贝尔(Martial Hébert)、加利福尼亚大学伯克利分校的吉滕德拉·马利克(Jitendra Malik)、牛津大学的安德鲁·西塞曼(Andrew Zisserman)、加州理工学院的彼得罗·佩罗纳(Pietro Perona)等人。令我吃惊的是,他们都对卷积网络展现的能力十分震惊。2000年,我受邀在CVPR做了一场全面的报告。
我在该研究领域中占据了一席之地,并与相关学者建立了稳定的联系,在可以预见的未来,这些联系必将开花结果。在接下来的10年中,机器学习在视觉领域中的重要性与日俱增。但一直等到2014年,卷积网络才成为视觉研究的主要方法。虽然该领域的领军者愿意接受新想法,可一些年轻同行在评论我们的文章时却并不那么宽容……
[1] Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner, Gradient-based learning applied to document recognition, Proceed-ings of the IEEE , 1998 , 86 (11), pp. 2278 –2324.