深度学习之模型设计：核心算法与案例实践最新章节_言有三著

2.2.5 图像识别的重大突破

在图像领域，对文本检测与识别、人脸检测与识别等的研究已有超过半个世纪的历史，但始终没有达到商用的水准。

传统的图像处理由人工设计各类具有不变性的颜色、形状、纹理等作为算子，其中非常优秀的代表有SIFT、HoG等，它们加上经典的分类器SVM、Adaboost，在很长的一段时间内成了图像识别领域的通用方案。在早期的一些图像识别竞赛中，获胜的也是这一类方案，其直到2012年才被横空出世的深层神经网络彻底打败，随后再也没有获得过胜利。2012年，在ILSVRC竞赛中，Geoffrey Hinton的学生Alex Krizhevsky提出了AlexNet网络 ^[5] ，一举夺魁。

图2.3所示为ILSVRC 2012分类任务比赛前5名的错误率。

图2.3 ILSVRC 2012分类任务比赛前5名的错误率

SuperVision团队使用的正是AlexNet网络，在只使用大赛数据进行训练时取得了0.16422的错误率。第2名是ISI团队，错误率是0.26172，其使用了SIFT+FV、LBP+FV、GIST+FV、CSIFT+FV等特征组合进行训练模型的集成。第3名是OXFORD_VGG团队，错误率是0.26979，其使用了Dense SIFT和颜色统计特征等，并选择SVM作为分类器。可以看到，从第2名到第6名，错误率差距在10%以内，而第1名和第2名之间有10%的差距，这让研究者认识到了卷积神经网络的强大。

之后的几年，神经网络模型开始快速发展，从2014年开始其对图像的识别水平就已经超过了人类的识别水平，下面简单介绍一下从2013年到2017年图像分类任务精度提高的过程。

2013年，ILSVRC分类任务的冠军网络是Clarifai，不过更为我们熟知的是ZFNet。Geoffrey Hinton的学生Zeiler和Fergus在研究ZFNet网络时利用反卷积技术引入神经网络的可视化，对网络的中间特征层进行可视化，从而使研究人员检验不同特征激活及其与输入空间的关系成为可能。因此，其对AlexNet网络进行了简单改进，包括使用了更小的卷积核和步长，将11×11的卷积核变成了7×7的卷积核，将stride从4变成了2，使ZFNet网络性能超过了原始的AlexNet网络。

2014年，ILSVRC分类任务的冠亚军网络分别是GoogLeNet和VGGNet。其中，VGGNet包括16层和19层两个版本，包含的参数约为550MB，全部使用3×3的卷积核和2×2的最大池化核，简化了卷积神经网络的结构。VGGNet很好地展示了如何在先前网络架构的基础上通过简单地增加网络层数和深度来提高网络的性能。虽然VGGNet设计简单，但异常有效，现在，VGGNet仍然被很多任务选为基准模型。

GoogLeNet是Google的Christian Szegedy等人提出的22层的网络，其分类错误率只有0.067。

GoogLeNet的核心是Inception结构，它采用并行的设计方式。一个经典的Inception结构包括1×1卷积核、3×3卷积核、5×5卷积核、3×3最大池化核4个部分，最后对4个部分的运算结果进行通道上的组合。通过多个卷积核提取图像不同尺度的信息，然后进行融合，可以得到更好表征。自此，深度学习模型的分类准确率在ImageNet数据集上已经达到了人类的水平（5%～10%）。与VGGNet相比，GoogLeNet在精心设计的Inception结构下，模型更深更小，计算效率更高。

2015年，ResNet获得了ILSVRC分类任务冠军。它的错误率是3.57%，超过了人类的识别水平，并以152层的网络架构创造了新的模型记录。ResNet采用了跨层连接方式，成功地缓解了深层神经网络中的梯度消散问题，为上千层的网络训练提供了可能。

2016年依旧诞生了许多经典模型，包括赢得ILSVRC分类比赛第2名的ResNeXt，101层的ResNeXt可以达到ResNet152的精确度，在复杂度上只有后者的一半。其核心思想为分组卷积，即首先将输入通道进行分组，经过若干并行分支的非线性变换后合并通道。

在ResNet基础上，密集连接的DenseNet在前馈过程中将每层都与其他的层连接。对于每层网络来说，前面所有网络的特征通道都被作为输入，同时其特征通道也都被后面的网络层作为输入。DenseNet中的密集连接还可以缓解梯度消失的问题，相比于ResNet，DenseNet能更强化特征的传播和特征的复用，并减少参数的数目。DenseNet相较于ResNet所需的内存和计算资源更少，并能达到更好的性能。

2017年，即ILSVRC的最后一年，SeNet获得了冠军。其仅使用“特征重标定”的策略对特征进行处理，通过学习来获取每个特征通道的重要程度，并根据重要性去降低或提升相应的特征通道的权重。

至此，ILSVRC结束，给我们留下的是研究人员在探索卷积神经网络结构的过程中付出的努力和取得的巨大成功。然而这还不是最高潮，因为以上这些研究只限于技术圈子。真正让深度学习或者说人工智能技术为大众所熟知，引爆业业外人士激情的，是2016年人类顶级棋手李世石与Google的围棋AI AlphaGo的5局赛事。

AlphaGo是基于深度学习、强化学习和蒙特卡洛树搜索的AI程序，CNN模型在其整个算法中占有非常重要的位置，用于在价值网络中估计当前局面的获胜概率。

2016年，AlphoGo还因为不够“成熟”有一次失误，输给了李世石一局，但一年之后，在与排名世界第一、连续夺得围棋大赛冠军、代表当前人类围棋最高水平的棋手柯洁对决时，在柯洁最好的状态下，其连胜3局，自此AlphaGo再无对手。按照人类大脑的进化水平，在围棋这个战局里，人类可能再也赶不上AI了。