红外热成像检测及其应用最新章节_袁丽华著

3.4 基于特征融合与通道注意力机制的SSD红外人体目标检测

红外人体目标检测是人体行为识别技术的首要任务，目标检测的准确性对人体行为识别精度具有关键性作用。目标检测是计算机视觉领域最核心也是最具有挑战的任务之一，其基本任务就是在输入的图像中识别相关目标，并返回目标的类别信息和位置信息。近年来，以卷积神经网络为代表的深度学习算法的广泛应用，使目标检测理论与相关技术取得了瞩目成果。基于深度学习的目标检测算法主要分为两类：①基于区域建议的双阶段目标检测算法，其优势在于检测精度更高；②基于回归的单阶段目标检测算法，其优势在于检测速度更快。

为满足红外视觉智能人体行为识别模型的实时性检测需求，宜选取单阶段目标检测模型。YOLO算法 ^[76] 和SSD算法 ^[77] 是较具代表性的两种算法，但YOLO算法针对遮挡、弱小目标问题的鲁棒性有待提高。SSD目标检测框架是单阶段目标检测框架中，在检测精度和检测速度方面综合性能表现最好的目标检测框架之一，其采用了Faster R-CNN ^[78] 的Anchor机制保证了检测的准确率，同时借鉴了YOLO模型的回归思想，在不同尺度特征图的给定位置生成了一系列的默认框，以实现端到端的多尺度目标检测。SSD模型在VOC2007数据集上平均精确率达到了74.3%，检测速度达到了59帧/s。因此，本章在SSD网络结构的基础上对模型进行改进，以满足实际场景下红外人体目标检测的要求。

SSD模型使用浅层特征图检测弱小目标导致目标无法充分利用上下文语义信息，使其对人体遮挡、小尺度目标的检测效果不佳，存在漏检、误检的情况。除此之外，红外视觉人体目标检测使用红外热成像传感器代替传统的可见光波段的成像传感器，存在人体目标对比度低、空域信息表征匮乏等问题。为了提高红外视觉下人体目标检测的速度与模型的鲁棒性，结合实际应用场景及红外图像中人体目标的空域特征，通过改变骨干网络、多尺度特征融合及添加SE通道注意力机制（Channel Attention Mechanism）的方式对SSD模型进行改进。

3.4.1 红外人体成像空域特征分析

红外图像特征的量化分析是红外视觉研究领域的基础任务之一，全辐射热像视频与可见光视频的核心区别在于两者的成像机制完全不同，这导致两者的空域表征信息存在较大差异。因此，人体目标检测模型的建立与人体行为识别系统的优化都需要结合实际应用场景定量理解与分析红外图像的表征结果，这有利于提升红外视觉下人体目标行为识别的可行性。

首先采用图像灰度直方图评估红外图像空域表征信息，红外图像与可见光图像空域表征信息分析如图3-13所示。图3-13描述了同一外场环境下采用热像仪采集的红外图像与可见光图像对比，图像右方对应的是该图像的灰度直方图。分析灰度直方图可知，红外图像的灰度信息分布较集中，对比度较低。而可见光图像的表征信息几乎分布在整个灰度空间，对比度较高。同时，灰度直方图表明了各灰度信息的频率信息，这说明红外图像缺乏尖锐的边缘和边界信息。

为了进一步定量分析红外图像与可见光图像的表征信息特点，采用空间频率、熵、标准差、均值4种图像评估指标进行对比分析。空间频率表征图像的梯度分布，空间频率越大，表明其边缘及纹理信息越丰富，其数学描述为

其中：

式中，RF表示图像的水平空间频率；CF表示图像的垂直空间频率。

熵反映的是图像中平均信息量的大小，熵值越大表明图像中像素点的混乱程度越大，图像中的信息量也就越丰富，目标越明显。其数学描述为

式中， p _ij =f （ i ， j ）/ N ² ，表示特征二元组（ i ， j ）出现的频数； N 表示图像的尺度； i 表示像素的灰度值； j 表示邻域的灰度均值。

标准差基于图像的统计信息，表征图像的灰度值与均值的离散程度，其数学描述为

式中， μ 表示图像中各像素的均值。

图3-13 红外图像与可见光图像空域表征信息分析

均值表征图像的亮度信息，其数学描述为

基于上述4种图像评估指标，对图3-13中的图像进行统计分析。红外图像与可见光图像的空域特征定量评估结果如表3-1所示。

表3-1 红外图像与可见光图像的空域特征定量评估结果

对表3-1中的数据分析可知，红外图像的空间频率低，表明红外图像的边缘、纹理信息匮乏；红外图像的熵值低，表明其空间复杂度较低，表征信息较少；红外图像的标准差小，表明其灰度值的离散程度低，图像视觉效果差；红外图像的均值小，表明其图像亮度信息明显低于可见光图像。

此外，人体是温度在310K左右的热辐射源，人体的峰值辐射波长在9.3μm左右 ^[79-81] 。热辐射穿过衣物被热像仪捕捉，受衣服材质与着装厚度的影响，热辐射能量下降十分明显。

综上所述，由于受实际检测环境因素及辐射能量在传播过程中辐射本身被大气复杂成分干扰等问题的影响，使红外目标图像存在空域特征匮乏、对比度低、边缘模糊、细节丢失、纹理信息不足、灰度信息分布低、信噪比低等特点。因此，现阶段提出一种有效的针对红外视觉人体目标检测的算法是十分必要的。

3.4.2 SSD模型结构

SSD目标检测模型借鉴了Faster R-CNN模型的Anchor机制和YOLO模型的回归思想，将目标检测问题转化为目标回归问题，采用小尺度卷积核和多尺度检测的方法，提高了目标检测的精度与速度。原SSD模型以VGG-16作为特征提取骨干网络，同时将VGG-16网络中的两个全连接层FC6和FC7使用两个卷积层Conv6和Conv7替换，并增加了4个特征提取层，以获取不同尺度的特征图。使用感受野较小的浅层特征图来检测弱小目标，使用感受野较大的深层特征图来检测大目标。

SSD目标检测模型对6种不同尺度特征图的每个位置都预设了一系列固定尺寸和长宽比的默认框（Default Boxs），通过分类与回归得到特征图上每个位置默认框对应的目标类型置信度与边框偏移量。最后，级联非极大值抑制模块去除冗余的预测框，以实现多尺度目标检测。SSD目标检测模型结构如图3-14所示。

图3-14 SSD目标检测模型结构

如上文所述，SSD算法的核心思想是利用多尺度的默认框回归目标的边框信息，在回归过程中采用不同尺度的特征图进行预测，从而提升对不同尺度目标的检测能力。SSD算法检测示意图如图3-15所示。假设在每个位置预设4个默认框，所有虚线表示生成的默认框，图3-15（b）中的绿色框用来检测图3-15（a）中左侧的人体目标。图3-15（c）中的红色框用来检测图3-15（a）中右侧的人体目标。

图3-15 SSD算法检测示意图

不同特征图上对应的默认框大小不同，当使用 m 张特征图进行预测时，默认框尺度的数学描述为

式中， S _min =0.2表示最底层特征尺度为0.2； S _max =0.9表示最高层特征尺度为0.9。默认框的长宽比，故默认框的宽 W _k 与高 H _k 的数学描述为

特别的，当 r =1时，SSD目标检测模型还扩充了一个尺度为的默认框。因此每个位置都会有6个默认框。

此外，在目标匹配阶段，SSD目标检测模型还采用了难例挖掘的策略对产生的样本进行抽样，并按照置信度误差降序排列，选择误差较大的样本作为负样本，使正负样本的数量比例为1∶3，以保证样本数量的平衡。

3.4.3 改进SSD红外人体目标检测模型

红外人体目标检测算法主要在3个方面对SSD目标检测模型进行了改进。

（1）改变骨干网络：针对智能红外视觉人体行为识别的实时性检测要求，为了提升模型检测速度，降低模型计算量，将特征提取骨干网络VGG-16替换为轻量化网络MobileNet V2。

（2）多尺度特征融合：针对红外视觉下人体目标表征信息匮乏及弱小目标、遮挡等问题，通过多尺度特征融合的方法，融合浅层特征图和上采样后的深层特征图，使浅层特征图具有更强的语义信息，从而充分利用浅层特征图的位置信息和深层特征图的语义信息，提高SSD目标检测模型对图像中红外弱小目标位置与类别的识别精度。

（3）融合通道注意力机制：在特征提取阶段，网络能融合局部感受野内的空间和通道间的特征信息，构建特征映射。在此过程中，默认各通道间的信息量是相同的，但不同通道的特征信息对红外人体目标的表征能力是有差异的，引入SE通道注意力机制模块可以增强特征图对关键通道信息的关注程度，突出有用的特征信息，抑制特征信息表征较弱的通道，提高SSD目标检测模型的检测精度。

基于特征融合与注意力机制的改进SSD红外人体目标检测模型结构，如图3-16所示。其使用MobileNet V2网络作为基础特征提取网络来提取空域特征信息，考虑到深层特征图Conv19_4与Conv19_5仅包含单层的语义信息，上采样后使浅层特征图获得的语义信息较少，还会增加模型的计算量。因此，对Conv13_expand、Conv16_pw、Con19_2、Conv19_3 4个特征层进行多尺度特征融合。同时对6个特征提取层添加SE通道注意力机制模块，并对特征图进行边框回归与分类。最后级联非极大值抑制单元，实现改进的单阶段红外视觉人体目标检测。

图3-16 改进SSD红外人体目标检测模型结构

MobileNet V1 ^[82] 网络的基本结构是深度可分离卷积单元。深度可分离卷积的核心作用是在尽量确保模型检测精度的基础上，减少模型的参数与计算量。深度可分离卷积是将标准卷积拆分成深度卷积（Depthwise Convolution）和逐点卷积（Pointwise Convolution）的一种可分离卷积操作。深度卷积使用3×3卷积核的深卷积层，针对每个通道采用不同的卷积核。逐点卷积使用1×1卷积核的卷积层，每层卷积运算后的结果采用批量归一化（Batch Normalization，BN）及线性整流函数（ReLU）进行处理。深度可分离卷积如图3-17（b）所示，其是在图3-17（a）标准卷积的基础上加以改进的。在输入特征图与输出特征图尺寸相同的情况下，标准卷积的计算量 A _Conv 的数学描述为

深度可分离卷积的计算量 A _DConv 的数学描述为

式中， D _K 表示卷积核的尺寸； D _F 表示输入特征图与输出特征图的尺寸； M 表示输入特征图的通道数； N 表示输出特征图的通道数。

A _DConv 与 A _Conv 两者的比值为

依据两种卷积结构的计算量比值可知，深度可分离卷积的计算量是标准卷积的1/ N+ 。由此可见，MobileNet V1网络中的深度可分离卷积结构相较标准卷积结构计算复杂度更低，模型更加轻量化。

MobileNet V2 ^[83] 网络的基本单元是瓶颈深度可分离卷积（Bottleneck Depth-separable Convolution）模块，其基本单元结构如图3-17所示。瓶颈深度可分离卷积模块引入了反向残差块（Inverted Residual Block）和线性瓶颈（Linear Bottleneck）层，进一步提升了网络模型的性能。

图3-17 MobileNet V2网络的基本单元结构

多尺度特征融合模块参照特征金字塔网络 ^[84] （Feature Pyramid Network，FPN）的思想，FPN融合示意图如图3-18（a）所示。通过将低分辨率、高语义信息的高层特征图与具有更多细节特征的高分辨率、低语义信息的低层特征图进行自上而下的连接，使不同尺度下的特征都具有较丰富的语义特征信息，并对融合的特征图进行人体目标检测，在不显著增加原有模型计算量的情况下，大幅度提升检测模型对弱小目标人体的检测能力，提高目标的检测精度。

本节对38×38、19×19、10×10、5×5 4张特征图进行融合，特征融合设计示意图如图3-18（b）所示。首先采用双线性差值的方式进行上采样，并使用1×1卷积操作，统一不同尺度特征层的通道数量，然后使用Add融合特征图。

SE通道注意力机制结构包括压缩（Squeeze）、激励（Excitation）、重标定（Scale）3个过程。压缩是基于特征图的尺寸通过全局平均池化输入维度为 W×H×C 的特征图得到维度为1×1 ×C 的全局压缩特征量，其数学描述为

式中， x _c ∈R ^WH 表示输入的特征映射。

图3-18 多尺度特征融合示意图

激励过程是将压缩后的特征图输入两个全连接层，为了增加非线性过程先对特征数据降维（输出维度为1×1 ×C / r ），再升维（输出维度为1×1 ×C ），最后由Sigmoid激活函数得到1×1 ×C 的特征图，其数学描述为

式中， δ （ x ）=max（0， x ），表示ReLU激活函数；表示Sigmoid函数，。

重标定过程是指将输入维度为 W×H×C 的特征图与激励后维度为1×1 ×C 的特征图进行矩阵全乘，得到新的维度为 W×H×C 的特征图。通过两个全连接层与相应的激活函数构建通道间的相关性，其数学描述为

式中， y _c =[ y ₁ ， y ₂ ， y ₃ … y _C ]表示输入特征映射与其对应通道权重参数相乘的结果。

SE通道注意力机制结构如图3-19所示。

图3-19 SE通道注意力机制结构

红外人体目标检测模型的损失函数包括两部分：置信度损失和位置回归损失。置信度损失表示网络对于默认框的分类情况的准确性，位置回归损失表示默认框与真值框之间的重叠度。模型损失是置信度损失和位置损失的加权和，其数学描述为

式中， L _conf （ x ， c ）表示置信度损失； L _loc （ x ， l ， g ）表示位置回归损失； x 表示指示变量； c 表示分类的置信度； l 表示预测框； g 表示真值边界框； N 表示与真值边界框匹配成功的默认框数量，无真值时， N =0； α 表示置信度损失与位置回归损失的权重。

置信度损失即分类损失，表示多个类别概率的Softmax损失，其数学描述为

其中：

式中，表示当第 i 个预测框与第 j 个真值框匹配时 =1，否则 =0；表示第 i 类置信度交叉熵的损失。

位置回归损失 L _loc （ x ， l ， g ）表示预测框 l 与真值框 g 之间的平滑 L ₁ 损失，即smooth _L ₁ ，回归的是预测框 l 对应所匹配的默认框中心点（ cx ， cy ）的偏移量，以及相对于默认框宽 w 、高 h 的缩放比例，其数学描述为

其中：

3.4.4 实验与结果分析

为了保证数据集的多样性，反映真实的应用场景，在不同环境下对人体目标进行数据采集。拍摄时要综合考虑拍摄角度、拍摄距离、环境温度、衣物厚度等多方面外场环境因素及目标遮挡、复杂动作等实际问题。IR-HD（Infrared-Human Detection）数据集是由红外视频数据转换的图像数据，包含多目标和单目标，共6000张红外图像，约10000个红外人体目标。数据集中的部分图像，全辐射热像视频帧图如图3-20所示。

采用LabelImg标注工具对红外人体目标进行手工标注，因只需要获取人体目标，故将目标ID类别设置为1，形成XML标注文件。自制数据集在数量上依然不足，为提高网络模型的性能，采用水平翻转、随机裁剪两种数据增强方法来丰富数据集。IR-HD数据增强示意图如图3-21所示。

图3-20 全辐射热像视频帧图

图3-21 IR-HD数据增强示意图

实验环境配置如表3-2所示。

表3-2 实验环境配置

为了合理评估模型的检测效果，红外人体目标检测采用平均精度（mean Average Precision，mAP）及每秒显示帧率（Frames Per Second，FPS）作为模型评价指标。其中，FPS是衡量模型检测速度的重要指标，能反映网络模型实时性的能力。交并比（Intersection over Union，IoU）表示预测边界框与真值框之间交集与并集的比值，其数学描述为

精确率（Precision）、召回率（Recall）、平均精度（mAP）及检测精度（AP）的数学描述如下：

其中：

式中，TP表示正确预测的人体目标数量；FP表示将背景预测为人体目标的数量；FN表示将人体目标预测为背景，即漏检的数量； P 表示精确率； R 表示召回率。

在IR-HD数据集上对改进后的SSD单阶段目标检测模型进行训练，使用Adam优化器将初始化学习率设为0.001，使用学习率余弦退火策略对学习率进行更新，将Batch Size设置为32，迭代次数设置为10000。改进SSD红外人体目标检测算法损失曲线图如图3-22所示。改进SSD红外人体目标检测模型要训练10000个Epoch，通过设定的相关参数对网络进行训练，损失函数呈逐渐下降趋势，变化幅度较小，说明相关参数设置合理。改进SSD红外人体目标检测算法训练总损失最终稳定在0.05～0.1，处于收敛状态，基本维持稳定。

通过改变骨干网络为MobileNet V2并引入通道注意力机制来改进SSD红外人体目标检测模型。为了验证改进SSD红外人体目标检测模型的特征融合结构的有效性，在IR-HD数据集上进行消融实验，分析改进SSD红外人体目标检测模型的性能，实验结果如表3-3所示。由表3-3的数据可知，将SSD红外人体目标检测模型的骨干网络VGG-16更改为MobileNet V2，模型的平均精度下降了6.2%，平均召回率提高了3.5%，得益于瓶颈深度可分离结构，模型检测速度提高了28.78帧/s，模型大小减少了81.9m。由此可见，改变模型的特征提取骨干网络，虽然检测精度在交并比为0.5时有所下降，但是模型检测速度明显提升。

图3-22 改进SSD红外人体目标检测算法损失曲线图

表3-3 改进SSD红外人体目标检测模型消融实验结果

在特征检测层引入特征融合模块与SE通道注意力机制模块后，模型的平均精度相较SSD-MobileNet V2模型提升了7.7%，平均召回率提高了2.9%，模型检测速度下降了7.17帧/s。表明SE通道注意力机制缓解了特征图各通道之间的红外人体目标信息不平衡的问题，提升了模型对关键通道信息的关注度。同时，多尺度特征图融合策略增强了特征层的上下文信息，提高了浅层特征图的语义信息，有效提升了模型对弱小目标和遮挡目标的检测能力。

综上所述，改变骨干网络、融入特征融合与注意力机制的改进SSD红外人体目标检测模型相较SSD模型平均精度上升了1.5%，平均召回率提高了6.4%，模型检测速度提高了21.61帧/s。模型改进前后在IR-HD数据集的红外人体目标检测结果如图3-23所示。图3-23为SSD红外人体目标检测模型在置信度阈值为50%时，对常规目标、弱小目标、人体遮挡及多尺度目标的可视化检测结果。针对常规目标，改进后的模型相较改进前的模型的目标预测置信度明显提升；针对弱小目标，改进后的模型得益于多尺度特征融合，增强了浅层特征图的语义信息，有效提升了弱小目标的识别精度；针对人体遮挡情况，改进后的模型的鲁棒性更强，被遮挡目标依然具有较高的平均精度；针对SSD单阶段目标检测模型，通过改变骨干网络、特征融合及添加SE通道注意力机制来提升模型的检测效率，改进后的模型检测结果良好，并且检测速度达到了45.46帧/s，达到了实时目标检测的要求。

图3-23 模型改进前后在IR-HD数据集的红外人体目标检测结果

为了定量分析改进后模型的检测效果，将本节改进SSD红外人体目标检测模型（Ours）与Faster R-CNN、YOLO V5、CenterNet、EfficientDet 4种目标检测模型进行对比。

红外人体目标检测精度分析如表3-4所示。

表3-4 红外人体目标检测精度分析

由表3-4可知，Faster R-CNN平均精度最高，在交并比为0.5时平均精度达到了98.8%，平均召回率达到了80.7%。其次，YOLO V5的平均精度达到了97.6%，平均召回率达到了79.6%。两种模型的平均精度与平均召回率均优于Ours。Ours的平均精度相较CenterNet和EfficientDet分别提高了0.8%、1.0%，平均召回率分别提高了2.6%、6.9%。

此外，虽然Ours的平均精度相较Faster R-CNN与YOLO V5分别低了2.0%和0.8%，平均召回率低了4.0%和2.9%，但其检测速度相较Faster R-CNN与YOLO V5分别提高了26.59帧/s、12.96帧/s，相较CenterNet和EfficientDet分别提高了8.42帧/s、19.82帧/s，模型检测速度优势明显。总之，Ours在平均精度和检测速度上的综合效率更高，可以更好地应用于对检测速度有要求的红外人体行为识别任务当中。