科学之路：人、机器与未来最新章节_杨立昆著

11
梯度反向传播的运用

发明无法一蹴而就，它们是经历反复实验、失败、进入低谷和讨论的结果，通常要走很长的路才能实现。人工智能的前沿阵地也是如此，在接连不断的新发现的推动下步步向前。20世纪80年代，梯度反向传播的普及使得训练多层神经网络成为可能。该网络由成千上万分层的神经元组成，其间的连接更是数不胜数。每层神经元都会合并、处理和转换前一层的信息，并将结果传递到下一层，直到在最后一层产生响应为止。这种层次体系结构赋予了多层网络能够存储惊人的潜能，我们会在接下来的深度学习部分进行进一步的讨论。

不过，在1985年，多层网络的学习过程仍然很难实现。物理学家对完全连接的神经网络（霍普菲尔德网络）和自旋玻璃之间的类比更感兴趣，他们认为人脑中有一个联想记忆模型。普鲁斯特通过描绘玛德莲蛋糕的形状、气味和口感回想相关联的图像和情感，即记忆；而多层网络就是在感知模式的基础上运行的。多层网络是通过何种机制仅仅从形状就辨识出玛德莲蛋糕的？物理学家还没有给出答案。

这一切在1986年发生了转变。特伦斯·谢诺夫斯基发表了一篇探讨NetTalk多层网络的技术报告，NetTalk通过反向传播训练使机器学习阅读。该系统将英文文本转换成一组语音音素（基本语音）后传到语音合成器，从而实现“阅读”的功能。将文本语音转换成法语很简单，转换成英语却十分困难。在训练的初期，这个系统如同一个刚开始学习说话的婴儿，随着训练的不断积累，它的发音也越来越好。特伦斯·谢诺夫斯基到巴黎高等师范学院现场做了相关报告，震惊了现场听众和业界。随即，所有人都希望向我取经，因为多层网络突然变得十分流行，我也变成了这个领域的专家。

在这之前的一年，我发现可以用拉格朗日形式从数学的角度反向传播，这类形式化是传统机械、量子机械和“最优控制”理论的基础。我还注意到在20世纪60年代，有一位最优控制的理论家提出了一个类似反向传播的方法，这个方法被命名为“凯利——布赖森（Kelly-Bryson）算法”，也被称为“伴随状态法”。在1969年出版的由亚瑟·布赖森（Arthur Bryson）和何毓琦（Yu-Chi Ho）合著的《应用最优控制》（ Applied Optimal Control ）一书中对其进行了详细讲述。

这些科学家从没想过将这个方法应用到机器学习或者神经网络领域，他们更感兴趣的是系统的规划和控制。比如，如何控制火箭，使其到达一个精准的轨道并且和另外一个航空器对接，且同时要尽可能减少能源消耗。而从数学的角度来说，这个问题和调整多层神经网络节点的权重问题非常相似，这样最后一层的输出结果就会符合预期。

后来，我又了解到有好几位学者的发现都十分接近反向传播。在20世纪六七十年代，有人发现了反向传播中梯度的基本单元——“反向——自动微分”。但当时几乎所有人都用它来寻找微分方程的数值解或者做函数优化，而不是用于多层网络的学习，可能只有上过何毓琦课程的哈佛大学的保罗·韦尔博斯（Paul Werbos）是个例外。韦尔博斯于1974年在他的博士论文中提出了使用被其称为“有序导数”的方法来进行机器学习。直到很久之后，他才测试了他的方法。

1986年7月，应辛顿之邀，我在匹兹堡的卡内基·梅隆大学参加了为期两周的关于联结主义模型的暑期课程（见图2-1）。这次美国之行我其实是有顾虑的，因为当时我的妻子正在孕中，我们的第一个孩子将在我回法国4周后降生。

图2-1 1986年有关联结主义模型的暑期课程班学员

照片中标出的是斯坦尼斯拉斯·德阿纳（SD）、迈克尔·乔丹（MJ）、杰伊·麦克莱兰德（JMcC）、杰弗里·辛顿（GH）、特伦斯·谢诺夫斯基（TS）和我（YLC）。除此之外，照片上的许多参与者日后都成了机器学习、人工智能和认知科学领域的重要人物：安迪·巴尔托、戴夫·图尔茨基、格里·泰绍罗、乔丹·波拉克、吉姆·亨德勒、迈克尔·莫泽尔、理查德·德宾等组织者。

图片版权：暑期学校的组织者

我对那个夏天最深的记忆就是我与辛顿，还有刚完成博士论文的迈克尔·乔丹（Michael Jordan）建立了一个研究神经网络的团队，我们三个人之间也因此结下了深厚的友谊。为什么邀请迈克尔呢？因为他的法语比我的英语好。在暑期培训班的野餐会上，他弹着吉他演唱了乔治·布拉桑（Georges Brassens）的歌。

虽然我还只是个学生，但辛顿还是邀请我做了一场报告，并介绍说我发现了反向传播。在一次晚餐时，我们享用着我带来的一瓶很棒的波尔多红酒，辛顿跟我说，他将在一年后离开卡内基·梅隆大学，加入多伦多大学。他问：“你愿意成为我的客座研究员吗？”我回答：“当然了！”这一年时间正好够我完成博士论文。

大变革的时代到来了。鲁梅尔哈特、辛顿、威廉联合发表的关于反向传播的论文在业界引发了爆炸式的反响。 ^[1] NetTalk成功的消息也迅速传播开来。神经网络领域的研究走上了快车道。我制作的名为HLM的神经网络模拟和反向训练软件也吸引了法国工业界的一些买家，Thomson-CSF（现在名为Thales，即法国泰雷兹集团）就是我的顾客之一。

1987年6月，我完成了博士论文，并在皮埃尔和玛丽·居里大学通过了答辩。因为我在4月尝试一种新的沙滩帆船推进方式时伤到了脚踝，所以我借助拐杖才完成了答辩。杰弗里·辛顿是我的答辩委员之一，此外答辩委员会还有莫里斯·米尔格朗、弗朗索瓦丝·福热尔曼，雅克·皮特拉（Jacques Pitrat，法国人工智能符号领域的科研领袖之一）和贝尔纳·安吉尼奥（Bernard Angéniol，Thomson-CSF的一个研究团队负责人）。同年7月，我和我的妻子，还有我们一岁的宝宝一起来到多伦多，我成为辛顿的客座研究员。我们预计在多伦多的生活不会超过一年，我的妻子为了照顾孩子，不得不搁置了她的药剂师工作。我还指导着一个名叫莱昂·博图（Léon Bottou）的朋友。我与莱昂结识于1987年初，当时他正在巴黎综合理工学院完成最后一年的学业。他对神经网络很感兴趣，因此决定跟随我做毕业实习。请千万不要告诉他们的校长我还没有取得博士学位。当时，我正计划编写新的软件来创建并训练神经网络，它是由LISP解释器驱动的模拟器。

我把解释器的相关工作交给了莱昂，他仅用三周时间就完成了！此外，因为我们都拥有同款个人计算机——Commodore公司的Amiga（一款高分辨率、快速的图形响应、可执行多媒体任务的计算机），所以我俩的合作既愉快又高效。与现在的苹果计算机和其他品牌的个人计算机不同，Amiga计算机具有类似北美IT（信息技术）部门中常见的UNIX工作站的属性：我们使用C语言编程，使用GCC编译器和Emacs文本编辑器。我那台Amiga计算机安装了专供信息工作者使用的文本处理程序LaTex，我就是利用它完成了博士论文。莱昂和我通过连接MiniTel（数字化电话信息的交互式媒体）远程交换程序代码段。

我们将程序命名为SN（simulator neuronal，神经模拟器），它也是我俩长久合作与友谊的见证。莱昂后来在纽约FAIR的办公室离我的办公室并不远。

在多伦多，我完成了SN，之后对其做了调整，以便实现我设想的一个可以用于图像识别的神经网络——卷积网络。卷积网络是受福岛邦彦的神经认知机启发而产生的一个想法，但它使用的是更为传统的神经元，并且受到反向传播的驱动。同时，杰弗里·辛顿开发了一种更简单的用于语音识别的卷积网络，他将其称为TDNN（时延神经网络）。

1987年年底，我应邀前往麦吉尔大学的蒙特利尔计算机科学研究中心做报告。报告结束时，一位年轻的硕士研究生提出了一系列问题，从提问中可以看出他在多层神经网络方面有比较深入的研究。要知道在同时期，该领域的研究人员相当少。他想了解如何调整神经网络结构，并使其能够处理语音或文本等时间信号。我记住了他的名字：约书亚·本吉奥。他的问题非常有水平，我期待着在他毕业后与他合作。后来，在他取得了博士学位并在麻省理工学院短暂任职之后，我推荐他去了贝尔实验室。

[1] D. E. Rumelhart, G. E. Hinton, R. J. Williams, Learning internal representations by error propagation, in D. E. Rumelhart, J. L. McClelland, PDP Researche Group, Parallel Distributed Processing : Explorations in the Microstructure of Cognition , MIT Press, 1986 , vol. 1 , pp. 318 –362.

11 梯度反向传播的运用

11
梯度反向传播的运用