本节从复杂场景下的小目标检测、上下文信息、判别式学习3个方面分析小目标检测方法的原理。
小脸检测吸引了越来越多相关领域研究者的关注。文献[53]介绍了人脸检测领域的开创性工作,该方法采用哈尔特征和AdaBoost框架设计了级联的弱分类器,以实现快速、健壮的人脸检测。现有的研究工作提出了很多改进思路来改善该算法的性能。文献[62-63]是性能十分出色的人脸检测算法。这类方法采用人工设计的特征并单独优化每个组件,从而得到了次优的人脸检测结果。最近,基于CNNs的人脸检测器极大地弥补了人类视觉与人脸检测器之间的差距 [64-66] 。
专门面向遥感图像处理的物体检测算法研究正在吸引越来越多的关注 [43,54-57] 。文献[43]将自然场景目标检测算法泛化到遥感图像领域,创建了数据集DOTA。截至目前,数据集DOTA是遥感图像领域中标注规模最大的数据集,该数据集评测了很多目标检测与识别方法。文献[56]提出了一个统一的深度学习检测方法,该方法结合区域推荐网络与上下文特征融合网络来处理对象旋转变化和外观模糊的挑战。文献[57]设计了一个基于卷积神经网络的旋转不变性Fisher判别方法,以处理对象旋转和类间相似性的问题。与上述工作不同,本节专注于复杂场景中的小目标检测。遥感图像目标检测旨在检测大量小目标,如小脸、飞机、轮船、大型或小型车辆等。它与通用尺寸的目标检测完全不同,因为用于检测3像素的目标检测算法与用于检测300像素的目标检测算法是完全不同的。文献[23]提出了一个感知生成对抗网络,通过超分辨生成技术来增强小目标的信号,以提高模型对小目标的检测性能。文献[61]提出了与本研究最相关的研究工作,该研究工作提出了基于密度图估计与分割的计数检测。当图像中含有很多小目标时,可以有效估计它的密度图。众所周知,仅从小目标区域内部提取特征,不足以检测到小目标,主要原因是这类方法忽略了局部的语义信息。本节已经观察到密集场景中的人脸在尺度、纹理和位置属性方面存在局部连贯性的情况。如图3.2所示,彼此靠近的人脸边界框在长宽比例和纹理上具有相似性,上下文信息有助于小脸检测器更好地剔除虚假目标。
上下文信息是拥挤场景中微小目标检测的关键信息 [24,68-71] 。CMS-RCNN [68] 将上下文信息加入FasterR-CNN对象检测器 [72] ,并验证了上下文信息是检测小目标的关键。Bell等人提出了Inside-Outside网络,对感兴趣区域的外部进行建模,并在小目标检测方面提出了改进方案。最近,Hu等人设计了一个中心凹描述符,同时捕获上下文和高分辨率图像特征,以便有效地对上下文信息进行编码。该描述符在Wider Face数据集上达到了最前沿的检测准确率。Chen等人通过级联深度学习的特征,集成上下文信息,以提高小目标检测性能。但是,当小目标挤在一起时,物体的邻域可能包含小目标的部分。Tang等人设计了基于上下文信息的锚点方法,从人脸周围的上下文信息训练监督人脸检测器。
判别式学习以一个图像对作为输入,通过计算图片特征之间的距离来计算语义相似度 [73-77] 。1993年,Bromley等人首先使用判别学习计算一对图像之间的相似性,以进行签名验证。Cao等人设计了支持向量机的判别模型,以预测匹配和不匹配的图像,并用于大规模图像匹配。Lee等人使用三重态训练网络,使网络判别样本可以进行地点识别。Yi等人将一张图片划分为3个水平部分,并训练3个部件CNNs以提取有效的判别特征。类似地,文献[76]将CNNs与某些门函数进行集成,旨在自适应地关注输入图像对的相似部分。本节研究的对象与上述文章研究的对象明显不同,本节所关注的目标尺寸非常小,因此很难分成多个部分。为了引入局部的互相关关系,本节引入了区分模块来表示互相关性,并使用图割算法对候选者进行分组,同一组中的候选区域之间相似度高,不同组的候选区域之间相似度较低。