红外热成像检测及其应用最新章节_袁丽华著

3.2 卷积神经网络

深度神经网络是人体行为识别技术的重要工具，其对底层数据信息的深层特征的提取是传统手工定义特征无法比拟的。深度卷积神经网络（Deep Convolutional Neural Network，DCNN）作为计算机视觉领域最有力的深度学习工具之一，是以卷积运算为核心的人工神经网络（Artificial Neural Network，ANN）。本节对卷积神经网络的结构进行概述。

卷积神经网络在图像分类、目标检测、语义分割、图像检索等计算机视觉领域任务上表现优异，其在多层神经网络结构中增加了卷积层，通过卷积操作提升模型对图像空域信息的表征能力，实现对图像中高级特征的有效提取。高阶复杂的神经元往往具有较大的感受野，能提取更高层次的特征。权值共享与局部连接是卷积神经网络的两大核心优势。卷积神经网络一般由输入层、卷积层、激活层、池化层、全连接层、输出层等部分组成，其基本结构如图3-4所示。

图3-4 卷积神经网络基本结构

前馈运算和反馈运算是卷积神经网络的两个过程。其中，卷积层与池化层的交替出现使网络模型的深度不断加深。提取到语义信息更丰富的深层图像特征，并传递给全连接层的过程被称为前馈运算。反馈运算是指模型通过对损失函数进行计算，使最后一个全连接层向前更新网络参数的过程，通过对神经网络参数的迭代更新，实现对卷积神经网络的训练。

3.2.1 卷积层

卷积层是卷积神经网络实现特征提取的核心部分，其目的是通过卷积核的卷积运算实现对输入图像的高层次特征的提取。低层次的卷积运算可以获取边缘特征、颜色特征、结构特征等低级图像特征，高层次的卷积运算可以提取更复杂的语义特征。通过卷积操作提取特征图，其实质就是将输入的矩阵与卷积核对应位置先相乘再累加得到二维矩阵。卷积后的特征图的大小 N 的数学描述为

式中， W 表示输入图像的大小； F 表示卷积核的尺寸； P 表示填充的大小； S 表示步幅的大小。假设输入图像的尺寸为5×5，卷积核的尺寸为3×3，在无边界填充（Padding），步幅（Stride）为1的情况下，卷积操作示意图如图3-5所示。

3.2.2 激活层

激活函数是为了增加网络模型的非线性表达能力。对于多层前馈神经网络而言，如果每层都是线性变换，则网络最终的输出与输入依然是固定的线性关系。常见的激活函数有Sigmoid函数、线性整流函数（Rectified Linear Unit，ReLU）、Leaky ReLU等。

Sigmoid函数及其导数的数学描述为

Sigmoid函数及其导数图像如图3-6所示。

图3-5 卷积操作示意图

图3-6 Sigmoid函数及其导数图像

Sigmoid函数在定义域内单调连续，将输入数据映射到[0，1]内。反向传播时通过求导更新卷积核的权重，但当输入数据过大或过小时，会使其导数接近0，导致模型出现梯度消失的情况。tanh函数（双曲正切函数）可解决Sigmoid函数输出不以0为中心，收敛速度慢的问题，其数学描述如下：

tanh函数及其导数图像如图3-7所示。

图3-7 tanh函数及其导数图像

tanh函数依然存在梯度消失的情况，ReLU可以有效改善此问题，其数学描述如下：

ReLU及其导数图像如图3-8所示。此外，还有Leaky ReLU、Parametric ReLU、Swish自门控激活函数等都可改善梯度消失的情况。

图3-8 ReLU及其导数图像

3.2.3 池化层

池化层是对数据进行降采样操作，其作用是对原始特征信号进行抽样，从而大幅度减少训练特征的维度和参数。此外，池化层可以保持平移、旋转、伸缩等不变性，以提取语义信息更强的特征，还可以控制模型过拟合的程度、提高模型的容错率。池化操作通常分为最大池化（Max-Pooling）、均值池化（Mean-Pooling）、随机池化（Stochastic-Pooling）。

从特征图中左上角开始对池化模板大小相等的区域内的值进行池化操作，池化后特征图的尺寸大小 N 的数学描述为

式中， W 表示输入特征图的大小； F 表示卷积核的尺寸； S 表示步幅的大小。假设输入特征图的大小为4×4，池化模板的大小为2×2，步幅为2，相应的池化操作演示结果如图3-9所示。

3.2.4 全连接层

全连接层通常位于卷积神经网络隐藏层的末端，其能将卷积层和池化层学习到的分布式特征表示映射到样本标记空间，将特征表示整合到一起，以增强卷积神经网络的鲁棒性，其基本结构如图3-10所示。

图3-9 池化操作演示结果

图3-10 全连接层基本结构