购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2 复杂场景下小目标检测与识别

2.2.1 信息增强

基于深度卷积网络的典型对象检测算法,如FastRCNN [38] 和FasterRCNN [34] ,仅使用单个图层的特征图来检测对象,但是试图在大范围场景中,检测并识别物体非常具有挑战性。深度卷积网络学习不同层中的分层功能,上述功能捕获不同的规模信息。具体来说,具有丰富空间信息的浅层要素具有更高的分辨率和更小的接收场,因此适用于检测小物体,而深层中语义丰富的功能则对照明,翻译更可靠并且具有较大的接收场(但分辨率较粗),更适合检测大型物体。检测时,小物体需要高分辨率的表示,并且上述对象的表示甚至在深层功能,这使小物体检测变得困难。一些技术,如膨胀/无穷卷积 [97,52] 提出了避免下采样的建议,甚至在更深的层中也使用了高分辨率信息。与此同时,在浅层中,检测大型物体也不是最优的,因为没有足够大的接收场,处理功能规模问题已成为内部的基本研究问题。有4个主要范式解决多尺度特征学习问题:图像金字塔、融合金字塔、预测金字塔和特征金字塔。

1.图像金字塔

图像金字塔是指调整输入图像的大小,将其分成许多不同的比例并训练多个检测器,每个检测器负责检测特定的范围 [98-101] 。在测试期间,要将图像大小调整到不同的比例,然后将多个检测器和检测结果合并,这在计算上可能非常昂贵。刘等人首先学习了一种轻量级规模的感知网络来调整图像大小,以便所有对象都具有相似的规模;其次学习单一类别的检测器。辛格等人进行了小物体检测的综合实验。他们在工作中提出了一个新颖的框架图像——金字塔的尺度归一化 [98] ,训练了多个与比例有关的探测器,每个探测器负责一定规模的物体。

2.融合金字塔

融合金字塔构造一个在多层中通过组合要素来生成单个要素的图,并根据新构建的模型做出最终的预测地图 [50-51,102-105] 。通过融合空间丰富的浅层特征和语义丰富的深层特征构造的新特征包含丰富的信息,可以检测不同比例的物体。上述组合通常是通过使用跳过连接 [1] 实现的。由于不同层的特征规范具有高差异。贝尔等人提出了内外网络,通过对感兴趣区域池化的方法 [38] 从不同的图层裁剪区域特征,并将这类多尺度区域特征结合起来进行最终预测。孔等人提议的HyperNet [50] 采用了与IoN类似的思想,他们通过集成中间层和浅层特征来精心设计高分辨率超特征图,以生成提议并检测对象;使用反卷积层对深层特征图进行上采样,并使用批处理归一化层对工作中的输入Blob进行归一化;构造的超特征图还可以隐式编码来自不同层的上下文信息。王等人通过细粒度的分类算法,集成了高阶表示而不是利用对象建议的简单一阶表示,提出了一个新颖框架多尺度位置感知内核表示 [103] ,捕获了提案的高阶统计特征并有效地生成了更具区分性的特征表示。组合特征表示更多描述性的,并提供语义和空间信息用于分类和本地化。

3.预测金字塔

刘等人的SSD [42] 结合了粗及来自多个图层的精细特征。在SSD中,预测是从多层进行的,每层负责一定规模的物体。后来,许多相关研究 [106-108] 受到该原理的启发,检测多尺度物体。杨等人还利用适当的特征图来生成一定比例的对象建议,这些建议特征图被输入到多个与比例有关的分类器中来预测对象。多尺度深度CNNs [106] 在多个特征图上应用了反卷积层以提高其分辨率,后来,这些精致的特征图用来进行预测。刘等人提出了一个接收场分组网 [108] ,以通过接收场块的方式增强健壮性和接收场。RFB模块采用了与初始模块 [75] 类似的思想,该模块捕获了通过多个分支从多个尺度和接受领域不同的卷积核,最后将它们合并在一起。

4.特征金字塔

结合综合优势特征和预测金字塔,林等人提出的特征金字塔网络 [39] 集成了不同的自上而下的方式,通过横向连接来缩放特征,建立一组比例不变特征图,并建立多个在这些特征金字塔上学习的与比例相关的分类器。具体来说,深度语义丰富的功能用于增强浅层空间丰富的特征。上述自上而下和横向特征通过逐元素求和或级联,用小的卷积减小尺寸。特征推荐网络的许多变体后来被开发出来 [109-111] ,并对特征金字塔块进行了修改。Kong等人和Zhang等人建立了带有侧向连接的比例尺不变特征图。与特征推荐网络不同,该网络生成了大量候选区域推荐,随后产生了区域。类别分类器省略了提案生成,因此,比原始特征推荐网络更有效。任等人和Jeong等人开发了一种新颖的结构,逐步并有选择性地编码不同层特征之间的上下文信息。受超分辨率任务启发 [121-122] ,Zhou等人使用一种新颖的变换块开发了高分辨率特征图,该变换块明确探索了跨多个尺度的尺度间一致性。

2.2.2 上下文信息发展现状

上下文信息对小目标的检测与识别至关重要,许多方法 [2,9,25,33,35] 使用额外的层从多个层构建上下文特性,使用上下文的另一个简单方法是在RoI集中时也考虑附近的区域。Hu等人通过提取周围区域和RoI来检测人脸;文献[4,7,18]研究了目标之间的关系信息,以增强检测模型;文献[3,13,36,37]建议使用卷积和非卷积层的混合来更好地分割小目标,因为非卷积层覆盖了更大的接收域,而不会丢失分辨率。由于这一特性,文献[3]使用了卷积层来匹配高分辨率和低分辨率特征之间的相对接收域。PyramidBox人脸检测器 [4] (A Context-assisted Single Shot Face Detector)加上头、肩膀等上下文信息,这相当于目标变大了,上下文信息加上检测也就更容易了。

上述技术依然处于简单的模块堆叠状态,基本没有考虑技术之间的内在联系,导致解决方法存在大量冗余计算,如上下文信息表征能力弱,双阶段架构缺少特征共享等。另外,已有的技术要么仅针对常规目标检测识别问题,要么仅针对小目标问题。而本部分针对复杂背景下小目标的检测与识别问题,分别从上下文信息、信息补偿和数据增强展开研究,设计了能够端到端的整体训练架构。第3章介绍基于上下文信息的复杂场景下小目标检测方法。 ZVMiD0+Lg4w9U4rxm88UppM8Xq/j5XTERt6WuiwXPOIpUgnDmqopBeV7EvYmzk4f

点击中间区域
呼出菜单
上一章
目录
下一章
×