卷积神经网络之图像融合识别最新章节_赵文达著

1.4 图像融合与目标识别技术的研究历史及现状

1.4.1 图像融合

在本节中，将全面回顾图像融合方法的研究历程，同时概述该领域当前的研究状况。

传统的图像融合方法主要利用手工设计的特征来进行图像融合，如稀疏表示 ^[9-10] ，光谱变化 ^[11] 等。LI H等人 ^[12] 提出了一种基于潜在低秩表示的多级图像分解方法，将源图像分解为细节部分和基础部分，然后对于不同的部分设计相应的融合算法来实现图像融合任务。晁锐等人 ^[13] 提出了基于小波变换的图像融合算法，并针对小波分解的不同频率域研究设计了不同的系数选择方案。杨桄等人 ^[14] 针对图像融合中对比度较低与细节损失等问题，提出了一种多特征加权的图像融合算法，该算法对边缘特征、梯度特征等进行组合，然后进行多尺度逆变换得到融合图像。然而，大多数传统的图像融合算法依赖手工设计特征方法，其提取到的特征表示能力比较单一，无法全面地描述输入的源图像，因此这些算法在面对复杂的现实场景时，得到的融合效果受到很大的限制。

最近，随着卷积神经网络等深度学习技术的发展，深度学习模型提取图像特征的能力不断上升，在多种任务上，各种基于深度学习的算法都展现了较高的性能。在图像融合任务上也不例外，基于深度学习算法的效果相较于传统算法有了显著的提升。目前基于深度学习算法的研究主要集中在以下几个方面：设计合理的网络结构、构建有效的模型约束（如损失函数）等。

在网络结构研究方面，ZHANG Y等人 ^[15] 设计了一种通用的全卷积模型，该模型对于每个输入图像利用一个卷积神经网络提取特征，然后根据输入图像的类型选择合适的融合规则将输入图像的特征进行融合并生成融合结果。王洪斌 ^[16] 等人设计了两个独立的分支网络逐级计算光谱特征与空间特征，提升了融合后图像的空间细节。MA J等人 ^[17] 提出了一个卷积神经网络与Swin Transformer ^[18] 结合的图像融合框架，利用卷积神经网络提取图像的局部特征，利用Swin Transformer提取图像的全局特征，最终把局部与全局特征进行融合来生成融合结果。有关融合模型约束的研究往往会与方法框架等方面结合。XU H等人 ^[19] 提出了一个全新的观点：源图像是由场景和传感器模式的联合作用形成的，并基于此观点设计多种损失与网络结构分解源图像信息特征用于图像融合。LIU J等人 ^[20] 提出了一个带有目标检测标注的图像融合数据集M3FD，并通过一个预训练的显著性检测网络，分离红外图像的前景与背景，然后分别对前景与背景设置专门的鉴别器，提升了融合图像中前景的结构完整度。特别地，在LIU J的方法中，一个目标检测模型被直接用作图像融合模型的约束，用于优化图像融合网络生成带有清晰目标的融合结果。相似地，ZHAO W等人 ^[21] 结合融合与目标检测，提出了一种基于目标检测元特征嵌入的红外图像与可见光图像融合方法。其核心思想是设计目标检测元特征嵌入模型，根据融合网络的能力生成对象语义特征，使语义特征与融合特征自然兼容，该过程采用元学习进行优化。ZHAO F等人 ^[22] 实现了一种自监督策略，采用编码器网络进行自适应特征提取，然后利用两个具有注意力机制块的解码器以自监督的方式重构源图像，迫使自适应特征包含源图像的重要信息。此外，针对源图像信息质量较低的情况，设计了一种红外与可见光图像融合的增强模型，提高了融合方法的鲁棒性，着重于提取更优秀的特征，ZHAO F等人 ^[23] 通过学习特定领域和通用领域的特征表示，提出了一种新的多领域图像融合通用框架。一方面，设计分而治之的方法来解决单领域内的领域自适应问题；另一方面，采用单领域融合模型设计多领域融合框架以解决特定领域特征表示问题。此外，ZHAO F等人 ^[24] 在红外和可见光图像融合的自监督学习框架中，设计了一种新的交互式特征嵌入提取方法，可以有效地提取源图像的层次表示，并试图改善重要信息退化的问题。

近期，也有将图像融合结合进生成式对抗网络框架的研究。MA J等人 ^[25] 开发了FusionGAN，在对抗生成损失中加入图像的内容损失，约束生成器输出的结果更加真实且减少图像内容（如纹理、边缘等）的丢失，提升了网络的融合效果，该方法能够生成具有红外强度和主导可见梯度的融合结果。在此基础上，DDcGAN ^[26] 采用具有两个判别器的生成器，通过特别设计的内容损失增强了热目标的边缘信息。后来，MA J等人 ^[27] 设计了一种基于保留细节的对抗学习的变体，其中基于FusionGAN设计了细节损失和目标边缘增强损失。与FusionGAN相比，这种方法能够更好地保留源图像的重要特征。

1.4.2 目标识别

在本节中，将全面回顾目标识别方法的研究历程，同时概述该领域的当前研究状况。

在早期的遥感图像目标识别相关方法研究中，人们主要依靠基于图像统计特征的方法来进行遥感图像目标分类。这些基于传统特征的方法主要依赖于图像本身的特征（如颜色直方图、光谱分布、主成分分析等）进行聚类规则或判断规则的选定，利用图像数据分布的内在规律来进行分类。陈华等人 ^[28] 利用像素之间的误差平方和作为评判准则，通过计算像素均值选取聚类中心点进行动态迭代的聚类，实现了基于K-means算法的目标识别算法。王志刚等人 ^[29] 提出使用主成分分析方法进行遥感图像目标识别的应用，首先获得数据矩阵的协方差矩阵，并且进一步计算得到协方差矩阵的特征值和特征向量，随后选择数据分布差异最大，也就是特征值的最大协方差矩阵作为投影方向进行数据降维，最终将多维的图像数据降低为低维的主成分，以进行分类分析，但是这种方法计算复杂、过程烦琐、效率较低。刘伟强等人 ^[30] 引入支持向量机来克服常规分类方法计算复杂度高、无法解决非线性问题等困难，并且针对支持向量机的核空间无法自适应地选择核函数等问题提出了自适应最小距离分类方法，其分类准确率高于普通的线性分类方法。早期的研究也涉及人工神经网络，尤其是多层感知器的使用，主要使用的方法是RUMELHART D E等人 ^[31] 提出的前向多层网络及其对应的反向传播更新算法。

总而言之，使用基于手工设计特征的传统方法进行遥感图像目标识别的应用受到了一定的限制，主要是由于传统特征表示能力和信息提取能力有限、人工设计的特征选取规则严重依赖于研究者的先验设置，计算复杂度较高，并且无法很好地处理非线性分类问题等挑战；随着相关算法研究的进一步发展，基于卷积神经网络的深度学习模型凭借其强大的特征提取能力、抽象理解能力，以及高度的准确率和效率逐渐取代了传统的遥感图像目标识别方法。

早期使用深度学习进行遥感图像目标分类的方法主要使用如深层卷积神经网络VGG ^[32] 、残差连接卷积神经网络ResNet ^[33] 等通用的基于深度学习的特征提取器，并配合遥感图像目标分类的真值进行损失计算，获得用于遥感图像目标分类的深度模型。最近的一些工作提出使用不同层级的深度特征融合进行高表征性的特征提取。例如，CUI Z等人 ^[34] 提出了使用U形全卷积网络进行多级特征的提取与融合，随后进行遥感图像的目标分类等分析回归工作。FANG W等人 ^[35] 提出了使用特征金字塔网络并搭配特别设计的金字塔特征均衡策略进行多级图像特征融合，随后进行遥感图像的目标分类与检测。LI L等人 ^[36] 提出了一个改进的残差条件生成网络，以提高生成图像的质量和负样本的图像质量：首先建立一个基于残差卷积的图像处理模块，以统一不同类型目标的细节纹理，然后使用像素梯度损失和Wasserstein损失作为鉴别器，以提高真实样本之间的相似性和生成图像的内部多样性，最后训练出一个可以生成高质量遥感图像，并且能够准确分类的深度学习模型。MA W等人 ^[37] 设计了一种用于多分辨率遥感图像分类的自适应混合融合网络，其中包括数据融合和特征融合两部分，在数据融合部分使用了一种自适应加权强度-色调-饱和度策略，该策略从信息共享的角度，通过自适应添加彼此的独特信息来减小不同遥感图像之间的差异；在特征融合部分，从特征的二阶相关性出发，提出了基于相关性的注意力特征融合模块。LI X等人 ^[38] 使用卷积神经网络和支持向量机结合的方式进行特征的提取，在训练阶段使用全卷积网络进行数据建模，在测试阶段使用支持向量机进行推理判断。HAN Y等人 ^[39] 针对遥感图像中船舶的细粒度分类专门提出了一种高效信息融合复用网络，考虑到对多尺度船舶的分类鲁棒性，他们设计了一个具有两个融合方向的密集特征融合网络，以最大限度地利用多层信息并且减少信息冗余。然后，通过双掩码注意模块对融合后的特征图进行细化，通过加强对遥感图像目标的区分和抑制杂波，提高在密集和杂波场景中的性能。LI J等人 ^[40] 对于遥感图像细粒度分类提出了一个背景滤波网络和一个船舶细粒度分类网络：背景滤波网络用于快速滤除背景区域，而船舶细粒度分类网络用于检测船舶目标和区分船舶类别。LIU Y等人 ^[41] 认为在卷积神经网络中，高层信息更加抽象，而低层也为图像表示提供了非常丰富和强大的信息，在此理论基础上他们提出了自适应地结合卷积神经网络中间层和全连接层的激活，以生成一个新的具有有向无环图拓扑结构的卷积神经网络，他们融合CaffeNet ^[42] 和VGG-Net的卷积层和全连接层的特征，借此来获得具有更好表现能力的特征提取器。目标识别任务中存在小样本问题，ZHAO W等人 ^[43] 提出了一种用于小样本遥感目标识别的多样性一致性学习方法，设计多样性生成模型作为教师模型，以生成多样化的结果，随后引入循环一致性蒸馏模型将不同伪标签的知识蒸馏到一个学生网络中，从而提高了识别精度；此外，ZHAO W等人 ^[44] 为缓解小样本条件的负面影响，还提出了一种弱相关的提炼方法，从教师模型中选择弱相关的特征来进行蒸馏，由于弱相关特征包含不同且可以相互抑制的噪声分布，最终提高了学生模型的表现。ZHAO W等人 ^[45] 提出了一种新的分层蒸馏框架来改善遥感图像中的长尾目标识别问题，构建了分层教师级蒸馏来改进，用中间和尾部数据训练的教师模型特征表示，并将多个教师模型的知识蒸馏给统一的学生模型。ZHAO W等人 ^[46] 针对遥感目标识别的泛化问题，设计了一个风格-内容度量学习框架，利用基于风格内容解耦互换的度量学习来鼓励模型根据内容而不是风格做出决策，提升了网络捕捉内容敏感而与风格无关的特征，获得了较好的泛化性能。