本章针对红外人体行为识别技术展开了相关研究,以全辐射热像视频为研究对象,以卷积神经网络为核心特征提取工具,提出了一种融合红外人体目标检测、人体姿态估计、时序行为分类的多阶段人体行为识别框架。建立了IR-HD、IR-HPE、IR-HAR 3种数据集,同时构建了基于特征融合与通道注意力机制的SSD红外人体目标检测模型、基于深度残差网络的红外人体姿态估计模型及基于人体骨骼关键点的时空混合模型,并对相关模型的检测性能进行了定量与定性评估。研究工作如下。
本章提出了一种改进SSD红外人体目标检测算法。针对红外人体行为识别实时性的检测要求,对单阶段目标检测算法进行改进,采用MobileNet V2网络作为基础特征提取网络,降低了模型复杂度,实现了模型轻量化。针对SSD模型对弱小目标、遮挡等情况鲁棒性差的问题,引入了特征金字塔结构来实现多尺度特征融合,以增强低层特征图的语义信息,提高模型对红外人体弱小目标的检测能力。为了进一步提高模型的检测精度,融入了SE通道注意力机制,提高模型对主要通道信息的关注度。改进SSD红外人体目标检测模型相较SSD模型平均精度提高了1.5%,检测速度提高了21.61帧/s。这表明通过改变骨干网络、多尺度特征融合及融入通道注意力机制的方式提升目标检测模型的性能是可行的。
本章提出了一种基于深度残差网络的红外人体姿态估计算法。针对红外人体姿态估计研究不足及人体骨骼关键点检测精度低等问题,本章提出了一种改进的CPMs算法。通过跨阶段置信度图融合策略,提高了各个阶段输入特征图的空间特征信息及模型对人体骨骼关键点的识别精度。同时,针对CPMs红外人体姿态估计模型计算量大的问题,将VGG-19特征提取网络更改为ResNet-18网络以降低模型的参数量,并引入通道注意力机制快速选择最能代表人体骨骼关键点的局部特征通道,提取人体骨骼关键点的局部特征信息,以实现红外视觉下的人体姿态估计。最后级联改进SSD红外人体目标检测算法,实现了红外视觉多目标姿态估计。基于深度残差网络的红外人体姿态估计模型的平均精度达到了87.3%,相较CPMs红外人体姿态估计模型提高了2.7%,证明了所提算法的优越性。
本章提出了一种基于人体骨骼关键点的时空混合模型红外视觉人体行为识别算法。针对单帧红外图像进行行为识别,忽略了人体行为时域信息问题,以时序骨骼点坐标信息作为输入,构建LSTM以实现对人体骨骼关键点空间维度与时间维度的运动信息的高层次特征提取,并对运动特征进行分类,从而识别人体行为。实验结果表明,基于人体骨骼关键点的时空混合模型更有效地提取了运动目标的时空特征,对目标行为有较好的识别能力,满足了红外视觉下智能人体行为识别的要求。