要说明什么是深度学习,首先要知道机器学习、神经网络、深度学习之间的关系。
众所周知,机器学习是一种利用数据训练出模型,然后使用模型预测的技术。与传统的为解决特定任务、通过编码实现的软件程序不同,机器学习使用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。
机器学习是人工智能的子领域,机器学习理论主要是研究、分析和设计一些让计算机可以自动学习的算法。
举例来说,假设要构建一个识别猫的程序。按照以往的方式,如果我们想让计算机进行识别,需要输入一串指令,例如猫长着毛茸茸的毛、顶着一对三角形的耳朵等,然后计算机根据这些指令执行下去。但是,如果我们对程序展示一只老虎的照片,程序应该如何反应呢?更何况通过传统方式制定全部所需的规则,在此过程中必然会涉及一些困难的概念,比如对毛茸茸的定义。因此,更好的方式是让机器自学。我们可以为机器提供大量猫的照片,机器系统将以自己特有的方式查看这些照片。随着实验的反复进行,系统会不断学习更新,最终能够准确地判断出哪些是猫,哪些不是猫。
在这种机器自学的方式中,我们不给机器规则,取而代之的是,我们给机器提供大量的针对某一任务的数据,让机器自己去学习,去挖掘出规律,从而具备完成某一任务的智能。因此,机器学习就是通过算法,使用大量数据进行训练,训练完成后会产生模型,训练好的模型就用于新数据结果的预测。
机器学习的常用方法主要分为监督式学习(Supervised Learning)和无监督式学习(Unsupervised Learning)。
监督式学习需要使用有输入和预期输出标记的数据集。比如,如果指定的任务是使用一种图像分类算法对男孩和女孩的图像进行分类,那么男孩的图像需要带有“男孩”标签,女孩的图像需要带有“女孩”标签。这些数据被认为是一个“训练”数据集,通过已有的训练数据集(即已知数据及其对应的输出)去训练,从而得到一个最优模型,这个模型就具有了对未知数据进行分类的能力。它之所以被称为监督式学习,是因为算法在使用训练数据集进行学习的过程中就像是有一位老师正在监督。在我们预先知道正确的分类答案的情况下,算法对训练数据不断进行迭代预测,其预测结果由“老师”不断进行修正。当算法达到可接受的性能水平时,学习过程才会停止。
在人对事物的认识中,我们从孩童开始就被大人们教授这是鸟、那是猪、那是房子,等等。我们所见到的景物就是输入数据,而大人们对这些景物的判断结果(是房子还是鸟)就是相应的输出。当我们见识多了以后,脑子里就慢慢地得到了一些泛化的模型,这就是训练得到的那个(或者那些)函数,之后不需要大人在旁边指点,孩子也能分辨出来哪些是房子,哪些是鸟。
无监督式学习(也被称为非监督式学习)是另一种机器学习方法,它与监督式学习的不同之处在于事先没有任何训练样本,而需要直接对数据进行建模。这听起来似乎有点不可思议,但是在我们自身认识世界的过程中,很多地方都用到了无监督式学习。比如,我们去参观一个画展,就算之前对艺术一无所知,但是在欣赏完多幅作品之后,我们也能把它们分成不同的派别(比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫作朦胧派,什么叫作写实派,但是至少我们能把它们分为两类)。
机器学习有很多经典算法,其中有一个是“神经网络”(Neural Network,NN)算法。神经网络最初是一个生物学的概念,一般是指由大脑神经元、触点、细胞等组成的网络,用于产生意识,帮助生物思考和行动,后来人工智能受神经网络的启发,发展出了人工神经网络(Artificial Neural Network,ANN)。“人工神经网络”是指由计算机模拟的“神经元”(Neuron)一层一层组成的系统。这些“神经元”与人类大脑中的神经元相似,通过加权连接相互影响,并通过改变连接上的权重来改变神经网络执行的计算。
最初的神经网络是感知器(Perceptron)模型,可以认为是单层神经网络,但由于感知器算法无法处理多分类问题和线性不可分问题,当时计算能力也落后,因而对神经网络的研究沉寂了一段时间。2006年,Geoffrey Hinton在《科学》(Science)学术期刊上发表了一篇文章,不仅解决了神经网络在计算上的难度,同时也说明了深度神经网络(Deep Neural Network,DNN)在学习上的优异性。深度神经网络的“深度”指的都是这个神经网络的复杂度,神经网络的层数越多就越复杂,它所具备的学习能力也就越强。此后神经网络重新成为机器学习中主流的学习技术,基于深度神经网络的机器学习则被称为深度学习。
如图1-1所示,神经网络与深度神经网络的区别在于隐藏层级。神经网络一般有输入层→隐藏层→输出层,一般来说隐藏层大于2的神经网络就叫作深度神经网络。深度学习的实质就是通过构建具有很多隐藏层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。
图1-1
有“计算机界诺贝尔奖”之称的ACMAM图灵奖(ACM A.M. Turing Award)公布2018年的获奖者是引起这次人工智能革命的三位深度学习之父——蒙特利尔大学教授Yoshua Bengio、多伦多大学名誉教授Geoffrey Hinton、纽约大学教授Yann LeCun,他们使深度神经网络成为人工智能的关键技术。ACM这样介绍他们三人的成就:Hinton、LeCun和Bengio三人为深度神经网络这一领域建立起了概念基础,通过实验揭示了神奇的现象,还贡献了足以展示深度神经网络实际进步的工程进展。
Google的AlphaGo(阿尔法狗)与李世石九段进行了惊天动地的大战,AlphaGo最终以绝对优势完胜李世石九段,击败棋圣李世石的AlphaGo所用到的算法,实际上就是基于神经网络的深度学习算法。人工智能、机器学习、深度学习成为这几年计算机行业、互联网行业最火的技术名词。
如图1-2所示,深度学习属于机器学习的子类。它的灵感来源于人类大脑的工作方式,是利用深度神经网络来解决特征表达的一种学习过程。深度神经网络本身并非一个全新的概念,可以理解为包含多个隐藏层的神经网络结构。为了提高深度神经网络的训练效果,人们对神经元的连接方法以及激活函数(Activation Function)等方面做出了调整。其目的在于建立模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释或“理解”数据,如文本、图像、声音等。
图1-2
如果是传统的机器学习的方法,我们会首先定义一些特征,比如有没有胡须、耳朵、鼻子、嘴巴的模样等。总之,我们首先要确定相应的“面部特征”作为机器学习的特征,以此来对我们的对象进行分类识别。
现在,深度学习的方法则更进一步。深度学习会自动地找出这个分类问题所需要的重要特征!传统机器学习则需要我们人工地给出特征!
那么,深度学习是如何做到这一点的呢?还是以识别猫和狗的例子来说明,按照以下步骤:
步骤01 首先确定出有哪些边和角与识别出猫和狗的关系最大。
步骤02 然后根据上一步找出的很多小元素(边、角等)构建层级网络,找出它们之间的各种组合。
步骤03 在构建层级网络之后,就可以确定哪些组合可以识别出猫和狗。
深度学习的“深”是因为它通常会有较多的隐藏层,正是因为有那么多隐藏层存在,深度学习网络才拥有表达更复杂函数的能力,也才能够识别更复杂的特征,继而完成更复杂的任务。有关机器学习与深度学习,我们从如下几个方面进行比较。
机器学习能够适应各种规模的数据量,特别是数据量较小的场景。如果数据量迅速增加,那么深度学习的效果将更加突出,如图1-3所示。这是因为深度学习算法需要大量数据才能完美理解。随着数据量的增加,二者的表现有很大区别。
图1-3
从数据量对不同方法的影响来看,我们可以发现深度学习适合处理大数据,而数据量比较小的时候,用传统的机器学习的方法也许更合适,结果更好。为了实现高性能,深层网络需要非常大的数据集,之前提到的预先训练过的神经网络用了120万幅图像进行训练。对于许多应用来说,这样的大数据集并不容易获得,并且花费昂贵且非常耗时。对于较小的数据集,传统的机器学习算法通常优于深度学习网络。
深度学习十分地依赖高端的硬件设施,因为计算量实在太大了!深度学习中涉及很多的矩阵运算,因此很多深度学习都要求有GPU参与运算,因为GPU就是专门为矩阵运算而设计的。相反,机器学习随便给一台普通的计算机就可以运行,物美价廉。深度学习网络需要高端GPU辅助大数据集的训练,这些GPU非常昂贵,但是深层网络的训练过程离不开高性能的GPU,此外,还需要快速的CPU、SSD存储以及快速且大容量的RAM。
传统的机器学习算法只需要一个“体面”的CPU就可以训练得很好,对硬件的要求不高。由于它们在计算上并不昂贵,可以更快地迭代,因此在更短的时间内可以尝试更多不同的技术。
特征工程就是指我们在训练一个模型的时候,首先需要确定有哪些特征。在机器学习方法中,几乎所有的特征都需要通过行业专家来确定,然后手工就特征进行编码。而深度学习算法试图自己从数据中学习特征,这也是深度学习十分引人注目的一点,毕竟特征工程是一项十分烦琐、耗费很多人力物力的工作,深度学习的出现大大减少了发现特征的成本。
经典的机器学习算法通常需要复杂的特征工程。首先在数据集上执行深度探索性数据分析,然后做一个简单的降低维数的处理,最后必须仔细选择最佳功能以传递给机器算法。当使用深度网络时,不需要这样做,因为只需将数据直接传递给网络,通常就可以实现良好的性能。这完全消除了原有的大型和具有挑战性的特征工程阶段。
运行时间是指训练算法所需要的时间量。一般来说,深度学习算法需要花大量时间来进行训练,因为该算法包含有很多参数,因此训练时间更长。顶级的深度学习算法需要花几周的时间来完成训练。相对而言,普通机器学习算法的执行时间较短,一般几秒钟、最多几小时就可以训练好。不过,深度学习花费这么大力气训练出模型肯定不会白费力气的,其优势就在于模型一旦训练好,在预测任务上会运行得更快、更准确。
最后一点,也是深度学习的一个缺点(其实也说不上是缺点),那就是在很多时候我们难以理解深度学习。一个深层的神经网络,每一层都代表一个特征,而层数多了,我们也许根本就不知道它们代表的是什么特征,也就没法把训练出来的模型用于对预测任务进行解释。例如,我们用深度学习方法来批改论文,也许训练出来的模型对论文评分都十分准确,但是我们无法理解模型到底是什么规则,于是那些拿了低分的同学找你质问“凭什么我的分这么低啊?”你也哑口无言,因为深度学习模型太复杂,内部的规则很难理解。
但是传统机器学习算法不一样,比如决策树算法,就可以明确地把规则列出来,每一个规则,每一个特征,我们都可以理解。此外,调整超参数并更改模型设计也很简单,因为我们对数据和底层算法都有了更全面的了解。相比较而言,深度学习网络是个“黑匣子”,研究人员无法完全了解深层网络的“内部”。