购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

11
梯度反向传播的运用

发明无法一蹴而就,它们是经历反复实验、失败、进入低谷和讨论的结果,通常要走很长的路才能实现。人工智能的前沿阵地也是如此,在接连不断的新发现的推动下步步向前。20世纪80年代,梯度反向传播的普及使得训练多层神经网络成为可能。该网络由成千上万分层的神经元组成,其间的连接更是数不胜数。每层神经元都会合并、处理和转换前一层的信息,并将结果传递到下一层,直到在最后一层产生响应为止。这种层次体系结构赋予了多层网络能够存储惊人的潜能,我们会在接下来的深度学习部分进行进一步的讨论。

不过,在1985年,多层网络的学习过程仍然很难实现。物理学家对完全连接的神经网络(霍普菲尔德网络)和自旋玻璃之间的类比更感兴趣,他们认为人脑中有一个联想记忆模型。普鲁斯特通过描绘玛德莲蛋糕的形状、气味和口感回想相关联的图像和情感, 即记忆;而多层网络就是在感知模式的基础上运行的。多层网络是通过何种机制仅仅从形状就辨识出玛德莲蛋糕的?物理学家还没有给出答案。

这一切在1986年发生了转变。特伦斯·谢诺夫斯基发表了一篇探讨NetTalk多层网络的技术报告,NetTalk通过反向传播训练使机器学习阅读。该系统将英文文本转换成一组语音音素(基本语音)后传到语音合成器,从而实现“阅读”的功能。将文本语音转换成法语很简单,转换成英语却十分困难。在训练的初期,这个系统如同一个刚开始学习说话的婴儿,随着训练的不断积累,它的发音也越来越好。特伦斯·谢诺夫斯基到巴黎高等师范学院现场做了相关报告,震惊了现场听众和业界。随即,所有人都希望向我取经,因为多层网络突然变得十分流行,我也变成了这个领域的专家。

在这之前的一年,我发现可以用拉格朗日 形式从数学的角度反向传播,这类形式化是传统机械、量子机械和“最优控制”理论的基础。我还注意到在20世纪60年代,有一位最优控制的理论家提出了一个类似反向传播的方法,这个方法被命名为“凯利——布赖森(Kelly-Bryson)算法”,也被称为“伴随状态法”。在1969年出版的由亚瑟·布赖森(Arthur Bryson)和何毓琦(Yu-Chi Ho)合著的《应用最优控制》( Applied Optimal Control )一书中对其进行了详细讲述。

这些科学家从没想过将这个方法应用到机器学习或者神经网络领域,他们更感兴趣的是系统的规划和控制。比如,如何控制火箭,使其到达一个精准的轨道并且和另外一个航空器对接,且同时要尽可能减少能源消耗。而从数学的角度来说,这个问题和调整多层神经网络节点的权重问题非常相似,这样最后一层的输出结果就会符合预期。

后来,我又了解到有好几位学者的发现都十分接近反向传播。在20世纪六七十年代,有人发现了反向传播中梯度的基本单元——“反向——自动微分”。但当时几乎所有人都用它来寻找微分方程的数值解或者做函数优化,而不是用于多层网络的学习,可能只有上过何毓琦课程的哈佛大学的保罗·韦尔博斯(Paul Werbos)是个例外。韦尔博斯于1974年在他的博士论文中提出了使用被其称为“有序导数”的方法来进行机器学习。直到很久之后,他才测试了他的方法。

1986年7月,应辛顿之邀,我在匹兹堡的卡内基·梅隆大学参加了为期两周的关于联结主义模型的暑期课程(见图2-1)。这次美国之行我其实是有顾虑的,因为当时我的妻子正在孕中,我们的第一个孩子将在我回法国4周后降生。

图2-1 1986年有关联结主义模型的暑期课程班学员

照片中标出的是斯坦尼斯拉斯·德阿纳(SD)、迈克尔·乔丹(MJ)、杰伊·麦克莱兰德(JMcC)、杰弗里·辛顿(GH)、特伦斯·谢诺夫斯基(TS)和我(YLC)。除此之外,照片上的许多参与者日后都成了机器学习、人工智能和认知科学领域的重要人物:安迪·巴尔托、戴夫·图尔茨基、格里·泰绍罗、乔丹·波拉克、吉姆·亨德勒、迈克尔·莫泽尔、理查德·德宾等组织者。

图片版权:暑期学校的组织者

我对那个夏天最深的记忆就是我与辛顿,还有刚完成博士论文的迈克尔·乔丹(Michael Jordan)建立了一个研究神经网络的团队,我们三个人之间也因此结下了深厚的友谊。为什么邀请迈克尔呢?因为他的法语比我的英语好。在暑期培训班的野餐会上,他弹着吉他演唱了乔治·布拉桑(Georges Brassens)的歌。

虽然我还只是个学生,但辛顿还是邀请我做了一场报告,并介绍说我发现了反向传播。在一次晚餐时,我们享用着我带来的一瓶很棒的波尔多红酒,辛顿跟我说,他将在一年后离开卡内基·梅隆大学,加入多伦多大学。他问:“你愿意成为我的客座研究员吗?”我回答:“当然了!”这一年时间正好够我完成博士论文。

大变革的时代到来了。鲁梅尔哈特、辛顿、威廉联合发表的关于反向传播的论文在业界引发了爆炸式的反响。 [1] NetTalk成功的消息也迅速传播开来。神经网络领域的研究走上了快车道。我制作的名为HLM的神经网络模拟和反向训练软件也吸引了法国工业界的一些买家,Thomson-CSF(现在名为Thales,即法国泰雷兹集团)就是我的顾客之一。

1987年6月,我完成了博士论文,并在皮埃尔和玛丽·居里大学通过了答辩。因为我在4月尝试一种新的沙滩帆船推进方式时伤到了脚踝,所以我借助拐杖才完成了答辩。杰弗里·辛顿是我的答辩委员之一,此外答辩委员会还有莫里斯·米尔格朗、弗朗索瓦丝·福热尔曼,雅克·皮特拉(Jacques Pitrat,法国人工智能符号领域的科研领袖之一)和贝尔纳·安吉尼奥(Bernard Angéniol,Thomson-CSF的一个研究团队负责人)。同年7月,我和我的妻子,还有我们一岁的宝宝一起来到多伦多,我成为辛顿的客座研究员。我们预计在多伦多的生活不会超过一年,我的妻子为了照顾孩子,不得不搁置了她的药剂师工作。我还指导着一个名叫莱昂·博图(Léon Bottou)的朋友。我与莱昂结识于1987年初,当时他正在巴黎综合理工学院完成最后一年的学业。他对神经网络很感兴趣,因此决定跟随我做毕业实习。请千万不要告诉他们的校长我还没有取得博士学位。当时,我正计划编写新的软件来创建并训练神经网络,它是由LISP解释器驱动的模拟器。

我把解释器的相关工作交给了莱昂,他仅用三周时间就完成了!此外,因为我们都拥有同款个人计算机——Commodore公司的Amiga(一款高分辨率、快速的图形响应、可执行多媒体任务的计算机),所以我俩的合作既愉快又高效。与现在的苹果计算机和其他品牌的个人计算机不同,Amiga计算机具有类似北美IT(信息技术)部门中常见的UNIX工作站的属性:我们使用C语言编程,使用GCC编译器和Emacs文本编辑器。我那台Amiga计算机安装了专供信息工作者使用的文本处理程序LaTex,我就是利用它完成了博士论文。莱昂和我通过连接MiniTel(数字化电话信息的交互式媒体)远程交换程序代码段。

我们将程序命名为SN(simulator neuronal,神经模拟器),它也是我俩长久合作与友谊的见证。莱昂后来在纽约FAIR的办公室离我的办公室并不远。

在多伦多,我完成了SN,之后对其做了调整,以便实现我设想的一个可以用于图像识别的神经网络——卷积网络。卷积网络是受福岛邦彦的神经认知机启发而产生的一个想法,但它使用的是更为传统的神经元,并且受到反向传播的驱动。同时,杰弗里·辛顿开发了一种更简单的用于语音识别的卷积网络,他将其称为TDNN(时延神经网络)。

1987年年底,我应邀前往麦吉尔大学的蒙特利尔计算机科学研究中心做报告。报告结束时,一位年轻的硕士研究生提出了一系列问题,从提问中可以看出他在多层神经网络方面有比较深入的研究。要知道在同时期,该领域的研究人员相当少。他想了解如何调整神经网络结构,并使其能够处理语音或文本等时间信号。我记住了他的名字:约书亚·本吉奥。他的问题非常有水平,我期待着在他毕业后与他合作。后来,在他取得了博士学位并在麻省理工学院短暂任职之后,我推荐他去了贝尔实验室。


[1] D. E. Rumelhart, G. E. Hinton, R. J. Williams, Learning internal representations by error propagation, in D. E. Rumelhart, J. L. McClelland, PDP Researche Group, Parallel Distributed Processing : Explorations in the Microstructure of Cognition , MIT Press, 1986 , vol. 1 , pp. 318 –362. +MmpBGep6uO0VjkT3UUV1AGU6dmKA7dfGymGzjhkKQPefI0yiu6kAYokYCzhv+7H

点击中间区域
呼出菜单
上一章
目录
下一章
×