红外热成像检测及其应用最新章节_袁丽华著

3.6 基于时空混合模型的红外人体行为识别

人体行为识别技术在智能安防、运动员辅助分析、机器人技术等技术领域具有十分广阔的应用前景。传统人体行为识别技术极易受噪声、环境等因素的影响，识别模型的泛化能力、鲁棒性、适用性较差，无法应对更复杂的视觉任务。基于深度学习的人体行为识别技术中的双流网络、3D卷积神经网络应用较广泛，但模型计算量大、可解释性差，不适用于进行实时人体行为识别。不同的人体行为识别模型具有不同的侧重点和优点，多种结构的混合模型往往可以更有效地提取时空特征信息。因此，基于时空混合模型的红外人体行为识别算法逐渐得到该领域研究学者的青睐。

时空混合模型通常指先提取空域特征信息，再提取时域特征信息，进而实现人体行为识别的网络模型。基于姿态估计的时序人体行为识别算法是一种典型的时空混合模型算法，模型以人体骨骼关键点信息作为空域特征，可以有效剔除目标人体骨骼关键点外的外场环境的干扰因素，只关注目标人体骨骼关键点的坐标信息，提高模型的检测效率与速度。早期，基于姿态估计的人体行为识别算法多针对单帧图像进行行为检测 ^[56] ，而人体行为通常包含时空连续性表征信息，基于静态图像无法获取目标行为的帧间时域变化特征。此外，基于静态图像的人体行为识别模型多采用人体骨骼关键点空间角度特征信息，即人体骨骼关键点的空间位置关系进行人体行为识别，模型的鲁棒性较差。

考虑到红外人体行为识别技术有人体行为非刚性、红外空域特征表征匮乏等问题。本节提出了一种基于姿态估计的时空混合模型，以实现红外视觉下的人体行为识别，将目标人体行为信息由连续的人体骨骼关键点进行描述，以人体骨骼关键点空间坐标信息作为空域特征信息，不同于传统定义的人体骨骼关键点空间位置的行为分类方法，高级时空特征映射关系具有更强的行为信息表征能力，行为分类的精度也会有较大的提升，模型的鲁棒性也会更强。

3.6.1 基于人体骨骼关键点的时空混合模型

混合模型具有速度快、检测精度高的特点，同时组合形式多样，但其难点在于模型组合困难，如何依据实际应用场景实现网络的有效组合是该领域研究的难点。基于姿态估计的时空混合模型，可以有效剔除原始数据中的冗余信息，提高模型的检测效率，可解释性强。本节提出的基于姿态估计的时空混合模型能通过目标检测、人体姿态估计模型、时序动作分类实现对红外人体目标的行为识别。

框架具体流程如下：首先，基于改进SSD目标检测模型对人体目标进行检测；然后，对预测框内的人体目标通过基于深度残差网络的目标姿态估计模型进行姿态估计，即获取人体骨骼关键点的笛卡儿坐标信息；再以人体骨骼关键点坐标信息作为空间表征信息，将时序骨骼特征点作为输入，构建长短时记忆网络 ^[88] （Long short-term memory，LSTM）以实现对人体行为时空特征的高维度提取，以此来表征人体行为；最后，通过Softmax分类器对时序人体骨架特征信息进行分类，实现对红外视觉人体行为的识别。基于姿态估计的红外视觉时空混合模型流程图如图3-37所示。

时序分类网络以LSTM为基础时序特征提取单元处理视频中人体骨骼关键点的长序列信息，并融合视频上下文中的人体骨骼关键点坐标。LSTM是循环神经网络的变体，通过使用一个叫作记忆单元状态的连接，决定当前记忆单元想要保存的内容。具体来讲，LSTM是在循环神经网络的单元结构基础上通过增加遗忘门（Forget Gate）、输入门（Input Gate）及输出门（Output Gate）3个门结构对记忆单元状态进行更新的，从而解决循环神经网络因长时间序列数据可能产生的梯度爆炸或梯度消失的问题。LSTM单元结构示意图如图3-38所示。

在整个单元结构中，遗忘门 f _t 能控制上一时刻记忆单元状态 C _t _-1 中信息的舍弃与保留。遗忘门利用上一时刻隐含的状态信息 h _t _-1 和当前时刻的输入信息 x _t ，通过Sigmoid函数返回一个0到1之间的数值。当返回的数值接近0时，信息被舍弃；当返回的数值接近1时，信息被保留。其数学描述为

输入门 i _t 能控制当前时刻记忆单元状态需要更新的信息，并将上一时刻隐含的状态信息 h _t _-1 和当前时刻的输入信息 x _t 传递给Sigmoid函数和tanh函数。Sigmoid函数能决定tanh函数创建的候选状态向量中需要保留的信息，其数学描述为

图3-37 基于姿态估计的红外视觉时空混合模型流程图

图3-38 LSTM单元结构示意图

单元状态更新时首先会将上一单元状态 C _t _-1 与遗忘门的输出相乘，决定上一时刻单元状态保留的信息；然后加上输入门 i _t 的输出，即加上输入门中Sigmoid函数与tanh函数计算值的乘积，得到更新后的单元状态 C _t ，其数学描述为

输出门 o _t 的作用是输出当前时刻的隐含状态 h _t ，将上一时刻隐含状态 h _t _-1 与当前时刻的输入 x _t 传送到Sigmoid函数，其数学描述为

将更新后的单元状态 C _t 先传送到tanh函数映射到[-1，1]，再把tanh函数输出与输出门的结果相乘，得到新的隐含状态 h _t ，其数学描述为

式中， f _t 、 i _t 、 o _t 分别表示遗忘门、输入门、输出门； W 表示对应的权重矩阵； b 表示相应的偏移量； C _t _-1 和 h _t _-1 分别表示上一时刻的单元状态和上一时刻的隐含状态。

LSTM就是通过3个门结构得到新的单元状态和新的隐含状态，并将信息传递给下一时刻的单元结构的。

人体骨骼关键点经过LSTM进行特征提取后，需要对相关特征进行分类。针对多分类问题的求解，常用的方法有 K 近邻（ K -Nearest Neighbor，KNN）、支持向量机（Support Vector Machine，SVM）等。

Softmax分类器是基于Softmax函数（归一化指数函数）的多元逻辑回归，是将逻辑回归一般化，实现在多分类问题上的扩展。其将输入向量从 N 维空间映射为0～1的实数，并以概率的形式显示分类结果，其数学描述为

式中， j =1，2，…， C ； θ _c =[ θ _c ₁ θ _c ₂ … θ _cj … θ _cC ] ^T 表示权重矩阵，对应各个类别的分类器参数信息，总模型参数 θ 的数学描述为

模型参数 θ 是由Softmax分类器训练得到的，可以计算输入向量对应各个类别的概率，进而判断其所属类别。

假设训练集的样本个数为 m ：{（ x ^（1）， y ^（1）），（ x ^（1）， y ^（1）），…，（ x ^（ ^m ^）， y ^（ ^m ^））}， x 表示输入向量， y 为每个 x 的类别标签。对于一个给定的测试样本 x ^（ ⁱ ^），使用Softmax分类器能得到其对应的每个类别的概率，对应的数学描述为

式中， h _θ （ x ^（ ⁱ ^））表示一个向量；其元素 P （ y ^（ ⁱ ^） = C | x ^（ ⁱ ^）； θ ）表示样本 x ^（ ⁱ ^）属于类别 C 的概率；向量中各元素的和为1。

对于测试样本 x ^（ ⁱ ^），概率值最大对应的 C 作为当前时序骨骼特征点的行为分类结果。训练模型参数 θ ，使其能够最小化Softmax分类器的代价函数，代价函数的数学描述为

式中，1{*}表示指示函数，内部为真时等于1，内部为假时等于0。

时序分类网络采用三层堆叠的LSTM单元结构来提取人体骨骼关键点的时序特征，三层LSTM网络隐藏的神经元个数分别为64、128、64。底层网络的输出状态作为输入传递给下一层神经网络，经过三层LSTM网络后将输出传入全连接层（Fully Connection Layer），两层全连接层的神经元个数分别为64、32。最后，通过Softmax分类器对输入的时序骨骼关键点表征信息进行分类。在此过程中，时序分类网络模型提取了更高层次的时域特征信息，捕捉了目标行为的上下文信息。

时空混合模型的时序分类网络结构如图3-39所示。模型的输入包含两个超参数，其中 T 表示每个行为的视频帧数； S=K×D 表示人体骨骼关键点的数据维度， K 表示人体骨骼关键点的个数， D 表示人体骨骼关键点的维度信息。姿态估计输出为人体骨骼关键点的坐标及置信度信息，人体骨骼关键点向量的维度为3，即（ x ， y ， v ）。因此，单帧人体骨骼关键点的数据维度为51。

图3-39 时空混合模型的时序分类网络结构

3.6.2 实验结果

依据实际场景需求，本节自定义了10种人体行为，分别是跌倒（Tumble）、挥拳（Shake）、奔跑（Run）、挥手（Wave）、站立（Stand）、弯腰（Stoop）、下蹲（Squat）、叉腰（Akimbo）、后仰（Hypsokinesis）及跳跃（Jump）。红外视觉人体行为视频数据均采用VarioCAM®980HD高清红外热像仪进行采集，10种人体行为的红外视频关键帧如图3-40所示。

图3-40表征了10种人体行为的空域与时序变化信息。为了丰富数据集，提高IR-HAR数据集的多样性，同时降低红外视频帧间信息的冗余性，结合热像仪实际采集频率，对采集的全辐射热像视频进行抽帧处理，构建子序列数据。按照步长为 S 对视频进行抽帧，组合成新的红外行为视频数据。红外人体行为视频抽帧演示效果如图3-41所示。

图3-40 10种人体行为的红外视频关键帧

图3-41 红外人体行为视频抽帧演示效果

视频抽帧处理首先对红外序列中的相邻帧图进行抽取，然后组合成新的动作视频序列。以图3-41为例，红外视频帧率为每秒30帧，每隔两帧抽取一帧组成新的挥拳动作红外视频数据。30帧红外视频抽帧后得到3个包含10帧图像的子序列样本。此操作既扩充了行为样本数量又降低了红外视频相邻帧间的冗余性，有效提高了数据集的质量。

采用IR-HAR数据集对时序分类网络进行训练，训练时将Epoch设置为200，损失函数为交叉熵损失，优化算法选择Adam算法，其他参数均为默认值。时序分类网络模型训练损失曲线如图3-42所示。

图3-42 时序分类网络模型训练损失曲线

由图3-42可知，时序分类网络模型损失呈逐渐下降趋势，最终趋近于0.1，处于收敛状态。

3.6.3 数据分析

为了量化分析基于人体姿态估计的时空混合模型的精度，采用混淆矩阵（Confusion Matrix）评估行为分类的准确性。时空混合模型红外人体行为识别检测结果的混淆矩阵如图3-43所示。

图3-43 时空混合模型红外人体行为识别检测结果的混淆矩阵

由图3-43可知，基于人体姿态估计的红外视觉时空混合模型人体行为识别检测精度达到了90.2%。奔跑、挥手、下蹲、后仰、跳跃动作的准确识别率均在90%以上。其中，站立行为识别精度最低，其次是叉腰，两者分别是82%和84%。站立与叉腰的骨骼点时序变化特征存在短期相似性，两种行为的错误识别率较高。此外，跌倒动作与后仰动作、跳跃动作的预备动作与下蹲动作均存在短期的骨骼点时序变化相似性，存在一定的误判。综上所述，基于人体姿态估计的红外视觉时空混合模型的人体行为识别检测精度较高，但部分动作与动作之间的关键点时空特征差异小、相似度高，给识别精度的提升带来了不小的挑战。

使用训练好的模型对IR-HAR数据集进行测试，时空混合模型红外人体行为识别可视化结果如图3-44所示。

图3-44 时空混合模型红外人体行为识别可视化结果

图3-44 时空混合模型红外人体行为识别可视化结果（续）

综上所述，本节提出的基于人体姿态估计的时空混合网络红外视觉人体行为识别算法，通过对红外视觉下人体骨骼关键点的获取，以人体骨骼关键点的空间坐标作为人体行为空域表征信息，结合LSTM实现对人体骨骼关键点的时序特征提取，并实现红外视觉下对10种人体行为的高效识别，满足了模型的设计要求。

为了验证时序分类网络模型的有效性，采用随机森林、逻辑回归、梯度提升决策树、KNN、SVM、LSTM分类器进行对比分析，相关动作分类精度统计如表3-6所示。由表3-6可知，基于LSTM的时序分类模型检测精度最高，相较随机森林、逻辑回归、梯度提升决策树、KNN、SVM分别提高了3.7%、5.9%、2.5%、4.8%和2.9%。由此可知，相较直接对行为特征进行分类的传统机器学习分类算法，通过LSTM提取人体骨骼关键点时序变化特征信息的时序分类网络能获取更高层次的时空特征，对于输入的时序人体骨骼关键点特征信息更加灵敏，检测精度更高。

同时，为了验证基于人体骨骼关键点的时空混合模型的检测精度，将本节（Ours）算法与LRCN、IDT人体行为识别算法进行检测精度对比，如表3-7所示。

表3-6 相关动作分类精度统计

表3-7 人体行为识别算法检测精度对比

分析对比结果可知，基于人体姿态估计的行为识别模型得益于人体姿态估计的高精度骨骼关键点预测，Ours算法较LRCN算法检测精度提高了1.6%，较IDT算法提高了17.7%。不同于传统的基于人体骨骼关键点的空间位置信息推断人体动作分类，本节以人体时序骨骼关键点作为动作表征信息，通过目标检测、姿态估计、时序行为分类实现对红外视觉下的人体行为识别。本章提出的基于特征融合与通道注意力机制的SSD红外人体目标检测模型对于红外目标具有较好的检测效果。同时，基于深度残差网络的红外人体姿态估计模型，有效提升了人体骨骼关键点的检测精度。在优质的目标检测模型与优质的红外人体姿态估计模型的加持下，基于时空混合模型的红外人体行为识别模型获得了表征能力更强的时序行为特征，模型的检测精度更高。