2006年,Geoffrey Hinton等人在 Science 期刊上发表了论文 Reducing the dimensionality of data with neural networks ,揭开了新的训练深层神经网络算法的序幕。
要完成机器学习任务,往往需要学习高维特征空间到低维特征空间的变换。在传统的机器学习任务中,人工设计的特征算子如SIFT、PCA(Principal Components Analysis,主成分分析)等,都是在模型学习之前已经完成了特征空间的变换。
卷积神经网络则训练一个带有若干中间层的多层神经网络来将高维空间的输入向量映射到低维空间,但这只有当使用一个好的初始化方案时才能实现,因此限制了它的应用。
尽管在1998年已经诞生了如LeNet5可以用于工业级手写数字识别的经典网络,但之后近10年并没有更大的突破,对于超过两个隐藏层的网络,一直没有通用的优化策略。
初始化权重大,会陷入不好的局部极值;初始化权重小,则梯度太小,这两种情况都影响模型收敛。要达到稳定的效果,往往要求神经网络中的参数在初始化时不随机,Geoffrey Hinton在论文中通过RBM(Restricted Boltzmann Machine,受限玻尔兹曼机)实现了一个预训练过程来进行参数初始化。
所谓RBM,是指一个二层全连接的双向网络,其中,二层指隐藏层(h节点)和可视层(v节点),且对各层节点的大小没有要求;双向指数据既可从可视层传输到隐藏层,也可从隐藏层传输到可视层。
在Geoffrey Hinton等人提出的RBM逐层预训练方法中,一次只训练相邻两层网络间的参数,这使学习过程更加简单。
虽然现在我们训练一个深层神经网络已经不需要采用逐层预训练方法,但基于已经训练好的模型进行参数训练的策略,即迁移学习方法,仍然被广泛采用,尤其是当要进行一些比较难训练的任务时。