在许多计算机视觉的应用中,远距离的物体引起了极大的关注,如地视观测 [43] ,以无人机为载台的视频监控系统 [95] ,以及隐私保护的视频分析 [96] 。深度学习技术,如ResNet [92] 、DenseNet [93] 和SeNet [94] 等,极大地促进了目标识别的发展,研究人员利用深度学习技术对感兴趣区域进行抽象的表示并进行分类。这类模型在具有足够多图像细节的区域上效果很好,但是在处理分辨率极低的图象时却表现欠佳。
LR物体识别就是在LR图像中识别小尺寸物体,该任务通常被认为是一项非常具有挑战性的任务,因为感兴趣物体所携带的信息太少了,视觉算法无法识别它们。正如文献[97]中指出的,该文献第一次定义了超LR人脸识别问题,独立识别至少需要在32像素×32像素分辨率的人脸区域进行。可见,HR物体识别可以达到较高的精度;而LR物体识别的性能较差,解决方案仍然很欠缺。
一种非常直观的解决方案是对LR图像进行超分辨率复原,然后简单地使用为HR或正常分辨率的物体设计的识别算法 [98-99] 。物体识别和图像超分辨率之间存在根本的区别,图像超分辨率重建旨在生成具有更好视觉质量的图像来让人们观看;而物体识别的目标是让识别算法保证较高的识别精度。尽管从直觉上说,对分辨率较高的图像进行识别通常会产生较高的精度;然而生成的超分辨率图像包含失真信息或严重失真区域,这会直接导致分类结果不佳。此外,独立工作的两个关键步骤,即超分辨率重建和分类,需要单独优化,对于整个识别系统来说,很难获得全局最优的解决方案。
另外一种主流的解决方案是使用候选区域中的语义相似度,将相同类别的候选区域聚类为一组,在组内采用投票的方式确定是否为人脸,以提高网络的识别性能 [100-101] 。但是,该类方法无法解决待识别对象分布稀疏的问题。
最近,基于特征变换的方法 [102-104] 试图将LR图像及其对应的HR图像投影到公共特征子空间中,使它们之间的距离最小化,该思路引起了研究界的极大兴趣。受此启发,为了直接在LR图像上获得HR的识别精度,本章提出了基于特征学习的生成对抗网络(RL-GAN)。在相关论文中,从HR图像中学习到的特征,用来引导LR特征的转化,从而提升LR图像特征表示的判别能力。这种增强在本质上是通过超分辨率重建LR图像的特征,使之与HR图像的特征相似,这样,增强后的特征更具区分性,更易进行分类或识别。
此外,本章研究了特征注意力机制在CNNs骨干网络的设计。本章认为在特征注意机制的作用下,从HR图像中学到的特征表示可以指导LR特征,从而更有效地学习。如图4.1所示,HR感兴趣区域(High Resolution Region of Interest,HR RoI)和LR感兴趣区域(Low Resolution Region of Interest,LR RoI)在分类器的高层卷积层中表现出不同的特征。本章提出的RL-GAN方法试图从LR RoI生成更像HR RoI的特征,从而提升LR物体的识别效率。基于特征学习的引导,直接在训练阶段控制了优化过程,并极大地提高了整个生成过程的性能。通过学习到的滤波器与局部感受野对输入图像进行卷积操作,以获得特征图。但是,通过该方式得到的特征图,仅仅利用了区域内部的局部信息,并没有利用全局信息。作用于LR图像时,这种局部感受野更加缺乏判别能力,相比高层特征,该问题在低层特征上表现得尤为明显。这是因为低层的感受野较小,导致网络无法捕获到足够且更有意义的信息。本章将自适应通道注意模块引入对抗学习框架中,RL-GAN模型尝试将全局信息编码到CNNs骨架模型中,以实现更强大的特征表示。本章的模块将全局信息编码成不同的特征图缩放因子,从而有选择地强调部分通道的特征。
本章提出了新的应用——遥感影像中的LR舰船分类,本章提出的RL-GAN也可用于LR舰船分类。广泛的实验验证了本章所提的特征注意力RL-GAN,它能够更清晰地看到远处的感兴趣目标。
图4.1 HR RoI和LR RoI在分类器的高层卷积层中表现出不同的特征
此外,现有的LR船舶数据集大多是为了检测而构建的,如DOTA [43] ,DOTA数据集不包含舰船类别的标签。另一类船舶数据集由安装在港口的CCTV相机捕获,如SeaShip [44] 、HRSC [45] 。本章为LR舰船分类创建了一个新的数据集——WIDER-SHIP。另外,本章还在其他基准数据集上验证了RL-GAN,以说明本章方法也可以应用于其他类型的物体。
本章的主要贡献如下:
(1)本章引入了自适应通道注意力模块,以选择性地增强特征的通道。该模块使本章的网络能够更加关注蕴含更多信息的通道,从而增强判别学习的能力。
(2)本章将输入特征图和对应的比例因子可视化,以此验证特征注意力模块的有效性。
(3)本章创建了一个新的数据集——WIDER-SHIP,该数据集提供卫星图像中多种分辨率的船只,不仅可以用于评估LR图像分类,还可以用于识别LR对象。