深度学习及自动驾驶应用最新章节_徐国艳著

3.3.2 AlexNet

AlexNet由多伦多大学的Alex Krizhevsky等人于2012年提出，AlexNet在LeNet的基础上提出了一些创新之处，使得网络的能力更加强大，取得了当年的ImageNet大规模视觉识别竞赛冠军，自此将深度学习模型在ImageNet比赛中的准确率提升至一个全新的高度，也掀起了深度学习的又一次狂潮。

ImageNet是由李飞飞团队创建的一个用于图像识别的大型图像数据库，包含了超过1400万张带标签的图像。自2010年以来，ImageNet每年举办一次图像分类和物体检测的大赛（ImageNet Large Scale Visual Recognition Challenge，ILSVRC），图像分类比赛中有1000个不同类别的图像，每个类别都有300～1000张不同来源的图像。自从该竞赛举办以来，业界便将其视为标准数据集，后续很多优秀的神经网络结构都在比赛中产生。相较于LeNet用于处理的手写数字识别问题，ImageNet图像分类很明显数据量更加庞大，任务难度提升巨大，因此要求神经网络的性能也就更加强大。

图3.15所示为AlexNet的网络结构，包括5个卷积层、3个全连接层、3个池化层、以及2个丢弃（Dropout）层。

相较于LeNet，AlexNet的结构明显变得更加复杂，需要计算的参数量也更加庞大，共有大约65万个神经元以及6千万个参数。

图3.15 AlexNet网络结构

AlexNet相较于之前的网络，有如下创新点：

1）使用了两种数据增强方法：镜像加随机剪裁和改变训练样本RGB通道的强度值。通过使用数据增强方法能够从数据集方面增加多样性，从而增强网络的泛化能力。

2）激活函数使用ReLU函数，相较于sigmoid、tanh等函数，ReLU在梯度下降计算的时候会比它们的速度更快。而且ReLU函数会使部分神经元的输出为0，可以提高网络的稀疏性，并且减少参数之间的相关性，也可以一定程度上减少网络的过拟合。

3）使用局部响应归一化对局部神经元创建竞争机制，使得响应较大的值更大，响应较小的神经元受到抑制，增强模型泛化能力。

4）引入Dropout，对于一层的神经元，按照定义的概率将部分神经元输出置零，即该神经元不参与前向及后向传播，同时也保证输入层与输出层的神经元个数不变。从另一种角度看，由于Dropout是随机置零部分神经元，因此也可以看成是不同模型之间的组合，可以有效地防止模型过拟合。