在第一批让我感到欣喜的读物中,有一份是我在1980年读过的报告。这实际上是一份辩论总结,辩论是在瑟里西(Cerisy)会议上展开的,主题是人类语言机制到底是先天的还是后天的。 语言学家诺姆·乔姆斯基的观点是,大脑中生来就已经存在能够让人们学习说话的结构。而发展心理学家让·皮亚杰(Jean Piaget)则认为,一切都是通过后天学习获得的,包括大脑中学习说话的结构,语言学习是随着智能的逐步建构而分阶段完成的。因此,智力的获得是人与外界交流学习的结果。这个想法深深地吸引了我,我开始思考如何才能将其应用于机器学习中。也有其他一些顶尖的科学家参加了这场辩论,比如西摩尔·帕普特,他极力颂扬了感知器,认为它是能够学习复杂任务的简单机器。
我因此知道了感知器的存在,并迅速沉迷于这个课题。我利用每周三下午不上课的时间,在罗康库尔的Inria(法国国家信息与自动化研究所)的图书馆寻找专业图书来读。在法兰西岛大区,Inria掌握着最为丰厚的计算机研究经费。我在阅读过程中很快发现,西方科学界尚无人研究神经网络。同时我还惊奇地发现,有关感知器的研究就截止在西摩尔·帕普特所称颂的感知器上,此外没有进一步的发展。
系统理论(在20世纪50年代被称为控制论)是我的另一个研究爱好,它主要研究人工系统和天然生物系统。比如人类体温的调节系统:人体温度之所以能够维持在37℃左右,主要得益于一种恒温器,它可以调节人体温度与外界温度之间的差异。
我对“自组织”也有浓厚的兴趣。分子或相对简单的物体是如何本能地相互作用组成复杂结构的?智能是如何从大量相互作用的简单元素(神经元)中发展而来的?
我研究了柯尔莫哥洛夫、所罗门诺夫和柴廷(Chaitin)的算法复杂性理论中的数学部分。此外,我在前文中提到的理查德·杜达和彼得·哈特 的书就摆放在我的床头,同时我还订阅了《生物控制论》,这是一本涉及大脑运作原理和生命系统的计算机数学模型的期刊。
因此,所有因为“寒冬”而被忽视的人工智能问题都呈现在我面前。在思考这些问题时,我慢慢形成了自己的理念:以逻辑的方式无法建构真正的智能机器,我们必须赋予机器学习的能力,让它们能以经验为基础进行自我建构。
在阅读期间,我发现科学界不只我有这种想法,因此我也注意到了福岛邦彦的研究成果,并开始思考提高新认知中心神经网络效率的方法。对正式开展研究来说比较幸运的是,巴黎高等电子与电工技术工程师学院为学生提供了当时功能非常强大的计算机。我与学校里的朋友菲利普·梅曲(Philippe Metsu)一起开始编写程序。他同样热爱人工智能,尤其对儿童的学习心理感兴趣。学校里的数学老师也愿意指导我们,我们一起尝试模拟神经网络。但实验十分费力:计算机进步缓慢,编写程序也着实令人头疼。
在学校的第四年,我由于更加沉迷于这项研究,开始设想一种用于训练多层神经网络的学习规则,可惜并没有真正得到数学层面的验证。我构想出一种可以在网络中实现从后向前传递信号的算法,用来实现端到端的训练,我将它命名为HLM算法(取自分层学习机的英文名称hierarchical learning machine,参见第五章相关内容)。命名这个算法的时候,我还玩了一个有趣的文字游戏 ……在HLM的基础上发展而来的“梯度反向传播”算法如今已被广泛应用于训练深度学习系统。HLM与如今的反向传播梯度网络的不同之处在于,HLM传递的是每个神经元的期望状态。因此在当时计算机运算乘法的速度比较慢的情况下,可以使用二进制神经元。HLM算法是训练多层网络的第一步。