深度学习(deep learning)大约起始于2006年,目前深度学习的主要模型是深层神经网络,故人们认为这是神经网络(neural network,NN)方法的第三次复兴。在深度学习的名称出现之前,深度学习的主要网络结构多层感知机(MLP)、卷积神经网络(CNN)和循环神经网络(RNN)等均已存在。深度学习通过改进训练算法适用于层数很深的网络,更重要的是数字化技术和互联网发展带来的大规模数据集、集成电路和计算技术的发展带来的大规模并行处理器和大型计算集群,为深度学习的实现提供了基础保证。
尽管深度学习目前非常活跃,但深度学习是机器学习中的一部分,其目的之一是改善传统机器学习的表示能力和泛化能力。
20世纪50年代到80年代,机器学习能够获得的样本数量规模大多在数百至数千量级,例如Iris样本集只有150个样本。20世纪80年代以后,统计学习占据了更主导的地位,一些具有数万样本数的样本集逐渐出现,例如前述的MNIST和CIFAR-10等。目前大规模数据集超过千万级别样本已很常见,例如前述的ImageNet和用于机器翻译的WMT等。在一些实际应用中,例如电商平台的推荐系统,通过互联网容易收集百万量级以上的样本集。大规模数据集为深度学习提供了数据基础。
2006年,G.Hinton使用贪婪逐层预训练技术训练一种称为“深度信念网络”的模型,拉开了深度学习的帷幕。2012年,Krizhevsky等使用深度卷积神经网络,在ImageNet的大型视觉识别比赛(ILSVRC)中,将前5错误率从26.1%降低到15.3%。此后深度卷积神经网络不断刷新纪录,至2015年前5错误率降低到3.6%,已超过了人类水平。大约在同时,在语音识别、机器翻译等领域,深度学习也取得了显著的进步,一些指标超过人类。在信息检索、商品推荐等应用上,深度学习同样取得了令人瞩目的成绩。结合深度学习的深度强化学习(DRL)产生出围棋软件AlphaGo和AlphaZero这样有突破的系统。
深度学习的一个重要特点是它是一种表示学习(representation learning)。对比表示学习,传统机器学习的一般方法是:首先从对象的原始输入抽取重要特征,形成特征向量,将特征向量输入机器学习模型中。深度学习一般可将对象的原始形式(不排除一些必要的剪裁和归一化等基本预处理)直接输入机器学习模型,由多层网络分层抽取各级特征,即模型自身可抽取特征。深度学习从处理对象抽取出嵌套的层次概念表示,由简单表示逐层演进到复杂表示,直到概括出高级的抽象表示,这是表示学习名词的由来。
深度学习是机器学习的一部分。可以看到在许多通用领域,例如机器视觉、语音识别、机器翻译、推荐系统等,因其可获得大规模数据,利用深度学习可取得出色的效果。一般来讲,目前的深度学习至少需要数千样本才可能训练出可用的模型,但在图像识别、语音识别等领域若要达到人类识别水平则需要千万量级样本。一方面,对于深度学习来讲,研究小样本学习技术已得到关注;另一方面,对于大量的复杂度适中、样本有限的专业应用,传统机器学习仍可以发挥重要作用。从全面了解机器学习和面向更全面应用的视角看,传统机器学习和深度学习都十分重要,本书尽可能做到两方面的平衡。