图像非聚焦模糊智能处理及应用最新章节_赵文达著

2.3 图像尺度对称协作网络

2.3.1 方法背景

非聚焦模糊是光学成像系统中常见的现象，当成像的场景正好位于系统的焦平面时，图像是清晰的。而当场景偏离焦平面时，图像就会变得模糊。非聚焦模糊检测的目的是识别出图像中的非聚焦模糊区域，这对于许多应用（如实例分割 ^[13] 、图像分类 ^[14] 、图像去噪[15]、图像超分辨率 ^[16] 、显著性检测 ^[19] ）都是重要且有用的。现有的非聚焦模糊检测方法大多基于人工设计的特征 ^[5-9] 。这些方法利用了一些低层次的视觉线索（如梯度域 ^[5-6] 、局部二值模式 ^[8] ），以及不同低层次特征的组合，如傅里叶域描述符、局部滤波器、小波系数、曲线系数等，但是这些人工设计的特征难以捕捉到高层次语义信息。

近年来，卷积神经网络（CNN）已被考虑用来提取非聚焦模糊检测 ^[7，18-19] 的高级特征。例如，XU等人 ^[12] 提取了一个基于卷积神经网络的补丁级的高级特征，并将其与手工设计的特征结合起来，以提高精度。Zhao等人提出了一种上下端的卷积网络来整合低级线索和高级语义信息。通过将非线性叠加到卷积层，使这些方法能够捕获语义表示。然而，非聚焦模糊检测中的两个具有挑战性的方面仍然需要解决。

均匀区域中的聚焦量是模糊的，因为这些区域在聚焦或非聚焦时外观上几乎没有区别[见图2.3.1（a）]。利用边缘的模糊程度指导的抠图可以解决均匀区域的检测问题。然而，本节的目标是执行没有任何后处理任务的端到端卷积神经网络，以提高均匀区域的检测性能。基于分级特征提取的卷积神经网络面临均匀区域检测的挑战，因为这种区域几乎不显示特征（如纹理和细节）。因此，许多基于深度学习的方法 ^[34，36-37] 也将均匀区域检测视为挑战。从后期处理来看，聚焦区域和非聚焦区域的边界检测是后续抠图的基础。精确的边界检测也是一个挑战，尤其是在过渡区域中，提取相似表征边界的特征模糊，导致难以准确检测边界。

过渡区域检测从聚焦区域到非聚焦区域的过渡是逐渐的。非聚焦模糊是由大光圈引起的，当场景位置不在相机的焦距上时，大光圈会阻止光线汇聚。从相机的聚焦距离到非聚焦距离的场景位置在图像中产生过渡区域。因此，过渡区域存在于许多自然图像中。矩形虚线框中包含过渡区域的自然图像示例如图2.3.2所示。准确定位过渡区域的边界有利于非聚焦模糊检测任务的应用（如抠图和图像重聚焦）。现有的非聚焦模糊检测方法 ^[18-19，38] 受过渡区域检测的影响如图2.3.3所示。

图2.3.1 非聚焦去模糊的挑战

图2.3.2 矩形虚线框中包含过渡区域的自然图像示例

图2.3.3 现有的非聚焦模糊检测方法受过渡区域检测的影响

最近的卷积神经网络方法已经使用尺度递归结构实现了较先进的性能。例如，WANG等人 ^[39] 采用单尺度递归卷积网络来实现显著性检测。ZHAO等人 ^[40] 提出了一种从低分辨率图像到高分辨率图像的逐级框架，以逐步改进片段预测。CHEN等人 ^[24] 首先通过将多个调整大小的输入图像馈送到共享的深度网络来提取多尺度特征，然后合并所得特征用于逐像素分类。

本节提出了一种端到端的图像尺度对称协作网络（IS2CNet）方法来解决非聚焦模糊检测问题。与现有的方法相比，本节方法有两个主要优势：一是利用对称图像金字塔策略，从不同尺度的图像中学习非聚焦模糊特征，并通过级联细化网络逐步优化检测结果；二是利用分层特征集成和双向传递机制，将低层的细节特征和高层的语义特征有效地融合和传递，以实现对缺乏结构信息的同质区域和包含背景杂波的低对比度的聚焦区域的精准非聚焦模糊检测。本节的动机描述如下：低级特性侧重于局部详细结构，而高级特性具有丰富的语义。因此，为了结合高级特征的语义信息和低级特征的空间信息，本节提出了一种对称级联协作网络HFI-BDM。HFI-BDM集成了低级特征和高级特征，以进行分层特性集成。此外，HFI-BDM将集成的层次特征转移到下一个图像尺度网络的输入中，引导网络有效地学习非聚焦模糊检测的层次特征。同时，受残差学习 ^[25] 的启发，HFI-BDM将集成的层次特征传递到下一个图像尺度网络的尾部，使其学习残差，减轻重复非聚焦模糊检测地图学习的负担，以实现对非聚焦模糊检测的改进。

综上所述，本节的工作主要总结如下：

（1）以图像尺度对称合作策略的形式探索图像的多尺度特征。在图像从大到小的过渡过程中，IS2CNet逐步扩展了图像特征的提取范围，从而可以逐步优化均匀区域的检测图。在从小到大的图像尺度变化过程中，IS2CNet逐渐感受到高分辨率的图像内容，从而逐渐细化过渡区检测。

（2）本节建立了图像尺度级联网络之间的桥梁，通过分层特征集成和双向传递机制，将以前的图像尺度网络的层次特征转移到当前图像尺度网络的输入和尾部，以指导当前图像尺度网络更好地学习残差。

（3）结果表明，IS2CNet具有较好的应用性能。

2.3.2 图像尺度对称协作模型

2.3.2.1 图像尺度对称协作模型动机

图像比例是非聚焦模糊检测的一个重要因素，模糊置信度与图像尺度的高度相关，本节IS2CNet的动机如图2.3.4所示。当尺度减小时，可以认为均匀区域更清晰。相反，当尺度增加时，过渡区域会更加模糊。因此，本节设计了一种对称图像金字塔策略，通过级联的细化网络来学习多尺度图像信息。用于图像处理的代表性多尺度网络的图示如图2.3.5所示。利用减小的尺度来逐渐优化均匀区域检测图。此外，在逐步细化过渡区域边界的同时，采用增加尺度的方法来重构原始尺度。

图2.3.4 本节IS2CNet的动机

图2.3.5 用于图像处理的代表性多尺度网络的图示

低层特征侧重于局部细节结构，高层特征语义丰富。因此，HFI-BDM集成了低级别功能和高级别功能，用于分层功能集成（见图2.3.6）。此外，HFI-BDM能将整合的分级特征转移到下一个图像尺度网络的输入，以指导网络有效地学习非聚焦模糊检测的分级特征。同时，受残差学习 ^[25] 的启发，HFI-BDM将集成的分层特征传递到下一个图像尺度网络的尾部，使其学习残差，以减轻重复非聚焦模糊检测映射学习的负担，从而实现对非聚焦模糊检测的改进。IS2CNet以对称的从大到小和从小到大的变换形式考虑图像的多尺度信息。本节的非聚焦模糊检测方法结构图如图2.3.6所示。通过从大到小的转换，IS2CNet能逐渐增加图像的感受野，可以逐步优化均匀区域的检测图。随着检测区域的增大，IS2CNet越来越注重图像的细节纹理，这逐渐细化了非聚焦模糊检测图的细节（见图2.3.6左下角的石头）。作为IS2CNet的重要组成部分，HFI-BDM集成了网络的分层特征，并将集成的分层特征双向传递到当前网络的输入和尾部。一方面，HFI-BDM将先前图像尺度网络的分层特征添加到当前图像尺度网络的尾部，使当前图像尺度网络学习残差；另一方面，HFI-BDM将先前的分层特征转移到当前图像尺度网络的输入，以增强残差学习的能力。因此，HFI-BDM有效地提高了IS2CNet的性能。

本节的网络组件非常灵活，为了验证上述策略的有效性，通过简单的组件来构建网络，在大规模ImageNet上训练的VGGNet ^[10] 用于提取多层次特征。考虑到参数和时间成本，本节选择前三个卷积块作为特征编码器，这足以为非聚焦模糊检测获得优越的性能。具体来说，①选择VGGNet的前三个卷积块，包括两个具有64个通道的卷积层，随后进行池化操作；两个具有128个通道的卷积层，随后进行池化操作；三个具有256个通道的卷积层。②顺序地添加对应于前面三个卷积块的三个反卷积块，以保持特征的空间分辨率。

本节采用两种尺寸的卷积核（如在从大到小处理图像尺度网络中，使用3×3卷积核；在从小到大处理图像尺度网络中，使用5×5卷积核）来实现卷积运算。其动机如下：①在图像尺度由大到小的过程中，图像特征逐渐细密。因此，3×3卷积核可以获得足够的感受野来产生感知层次特征。②在图像尺度由小变大的过程中，图像特征变得稀疏。因此，使用5×5卷积核来获得足够的接收。

2.3.2.2 对称协作级联网络

HFI-BDM是图像尺度对称协作级联网络之间的桥梁，它结合了分层特征集成和双向传递机制的优点。根据HFI-BDM在两个过程中（从大到小和从小到大）输出特征尺寸的不同，HFI-BDM图示如图2.3.7所示。首先将 C _i _{_} 1、 C _i _{_} 2和 C _i _{_} 3的输入分别与相应的DeC _i _{_} 1、DeC _i _{_} 2和DeC _i _{_} 3按元素相加，然后分层特征DIP _i+ ₁ 和DOP _i+ ₁ 被分别馈送到Conv_1、Conv_2和Conv_3的卷积层以降低到一维，最后通过逐元素相加来整合3个级别的特征。为了对准第（ i +1）级网络，采用下采样或上采样操作，这两种操作产生了两种版本的HFI-BDM _d 和HFI-BDM _u 。

图2.3.6 本节的非聚焦模糊检测方法结构图

图2.3.7 HFI-BDM图示

第一个HFI-BDM公式如下：

式中，{ W ₁ ， W ₂ ， W ₃ }和分别为HFI-BDM _d 和HFI-BDM _u 的Conv_1、Conv_2和Conv_3的卷积权重； D （ · ）和 U （ · ）代表下采样操作和上采样操作； A _{i_} k （ k= 1，2，3）表示 k 级综合特征，公式如下：

式中， C _i _ k 表示 k 级卷积特征；De C _i _ k 表示对应的反卷积特征；⊕表示逐元素相加。

为了进一步理解本节的非聚焦模糊检测方法的有效性，设计了IS2CNet的3个变体进行比较，以分析图像尺度对称协作结构和双向传输机制的相对贡献。这些变体如下：①仅考虑单尺度 s =1，本节去除下采样和上采样操作以获得表示为SSCNet的单尺度级联网络[见图2.3.8（a）]；②通过丢弃到下一级网络的输入的连接，具有单向传送机制的镜像级对称协作网络，表示为IS2CNet w/o CI[见图2.3.8（b）]；③通过丢弃到下一尺度网络尾部的连接，具有单向传递机制的IS2CNet，表示为IS2CNet w/o CT[见图2.3.8（c）]。

图2.3.8 IS2CNet的不同变体的图示

首先SCCNet打乱了优化同质区域检测图，然后细化过渡区域检测的机制。因此，SCCNet输出的非聚焦模糊检测图具有嘈杂的聚焦区域，以及聚焦区域和非聚焦区域之间的不准确边界[见图2.3.9（b）]。IS2CNet w/o CI或IS2CNet w/o CT破坏了双向传送机制（如丢失了由先前网络生成的非聚焦模糊检测图的引导或没有学习到剩余部分）。因此，它们不能实现非聚焦模糊检测的良好性能[见图2.3.9（c）和（d）]。综合考虑图像尺度对称的协作结构和双向传输机制，IS2CNet取得了最好的非聚焦模糊检测结果[见图2.3.9（e）]。本章将在2.3.4节的消融实验中进一步讨论这一点。

图2.3.9 IS2CNet及其不同变体的比较

2.3.3 模型训练

给定具有 N 个训练对的非聚焦模糊检测训练数据集，其中，和分别是具有 P 个像素的输入图像和真值二值图像。代表聚焦像素，代表非聚焦像素。首先单独训练基线网络以获得其初始权重，然后依次训练IS2CNet从大到小和从小到大的流，最后共同用多尺度深度监督对整个IS2CNet进行微调，使训练过程收敛。用于训练基线网络、从大到小网络和从小到大网络的损失函数定义如下：

本节联合微调整个IS2CNet的最终损失函数可以写成

式中， Θ= { W _b ， W _lts ， W _stl ， b _b ， b _lts ， b _stl }为所有网络层的参数集；{ W _b ， b _b }、{ W _lts ， b _lts }和{ W _stl ， b _stl }分别代表基线网络、从大到小网络和从小到大网络的学习参数集。

2.3.4 实验

2.3.4.1 数据集

目前，两个公共非聚焦模糊图像数据集可用于像素级非聚焦模糊检测。一个是Shi的数据集 ^[19] ，包含704张部分非聚焦模糊图像。另一个是Zhao的数据集 ^[38] ，包含500张部分非聚焦模糊图像。如文献[38]所述，本节使用Shi的数据集的604张图像进行训练，并使用剩余的100张图像和Zhao的数据集进行测试。实现细节：网络是在TensorFlow的基础上实现的。训练过程通过使用1的小批量优化目标损失函数来进行。Adam ^[41] 用于优化网络，动量值为0.9，权重衰减为0.005，学习率设置为0.0001，权重衰减为0.005。本节的模型是在11GB内存的GTX1080Ti GPU上训练的。对于320像素×320像素的图像，GPU的平均运行时间约为0.32s。

2.3.4.2 评判标准

首先，采用F-measure ^[14-15，18] 和MAE来评估非聚焦模糊检测的性能。其中，计算F-measure时按文献[42]的建议将 ζ ² 设置为0.3。精确率和召回率通过二进制化的非聚焦模糊检测图来计算，该图采用1.5倍于非聚焦模糊检测平均值的自适应阈值，以便与文献[38]进行公平比较。此外，本节还使用结构相似性度量（SS-measure） ^[43] 来同时评估非聚焦模糊检测图和真值之间的区域感知与对象感知的结构相似性。

式中， S _o 和 S _r 分别代表区域感知和对象感知的结构相似性度量； α∈ [0，1]，集合 α= 0.5，如文献[43]中所建议的。SS值越大，结果越好。具体来说：

式中，ssim表示显著图（SM）和真值图（GT）之间的结构相似性度量； k 表示块数，如文献[42]中所建议的，取为4， k 是第 k 个块的权重。设 μ 为GT中前景面积与图像面积的比值，则定义为

式中， O _FG 和 O _BG 分别为前景比较和背景比较，分别定义为

式中，和分别为前景区域（ x _FG ）和背景区域（ x _BG ）的平均概率值；和分别为前景区域（ x _FG ）和背景区域（ x _BG ）的概率分布离差的标准化度量。

2.3.4.3 对比实验

本节将所提出的IS2CNet与具有判别模糊检测特征（DBDF） ^[19] 、光谱和空间（SS） ^[17] 、深度和手工制作的特征（DHCF） ^[10，34] 、局部二进制模式（LBP） ^[18] 、多尺度融合和排序变换系数（MFSTC） ^[15] 、多流底部-顶部-底部网络（BTBNet） ^[38] 、双向残差精化网络（BR2Net）的方法进行比较，并在Shi的数据集和Zhao的数据集上递归地细化多尺度残差特征（R2MRF）。BTBNet ^[38] 、R2MRF ^[44] 、BR2Net ^[45] 和IS2CNet的参数分别为44.4 M、122.6 M、88.64 M和32.1 M。这些方法的相应计算复杂度分别为42.1×10 ⁹ 次浮点运算、316.3×10 ⁹ 次浮点运算、104.6×10 ⁹ 次浮点运算和65.3×10 ⁹ 次浮点运算。本节提出的IS2CNet参数个数少于BTBNet、R2MRF和BR2Net的参数个数，且IS2CNet的计算复杂度少于R2MRF和BR2Net的计算复杂度。F-measure值、MAE值和SS-measure值的定量比较1如表2.3.1所示。

表2.3.1 F-measure值、MAE值和SS-measure值的定量比较1

定性评估：图2.3.10所示为将IS2CNet和其他较先进方法生成的非聚焦模糊检测图进行比较，其提供了一个较直观的比较。手工制作的基于特征的方法会导致不准确的检测结果[见图2.3.10（b）、（c）、（e）和（f）]，原因可能是该类方法的功能缺少高级语义信息。单向图像金字塔 ^[11] 或基于多尺度特征的卷积神经网络模型 ^[44-45] 提出了挑战，尤其是在存在同质区域和过渡区域的情况下[见图2.3.10（d）和（g）～（i）]。相比之下，IS2CNet在各种具有挑战性的情况下能生成更精确的非聚焦模糊检测图。例如，均匀区域、聚焦区域和非聚焦区域之间的过渡区域，以及杂乱的背景[见图2.3.10（j）]。

图2.3.10 将IS2CNet和其他较先进方法生成的非聚焦模糊检测图进行比较

定量评估：IS2CNet在PR曲线（见图2.3.13）、准确度、召回率和F-measure（见图2.3.14）方面，在Shi的数据集和Zhao的数据集上优于其他较先进方法。此外，在表2.3.1和表2.3.2中记录了F-measure值、MAE值和SS-measure值。在Shi的数据集和Zhao的数据集上，IS2CNet比BTBNet ^[11] 的MAE值降低了76.2%和41.2%，同时改进了F-measure和SS-measure。在Shi的数据集上，IS2CNet取得了比BR2Net ^[46] 和R2MRF ^[47] 更好的性能。在Zhao的数据集上，IS2CNet在F-measure和MAE上取得了最好的性能。综合来看，IS2CNet优于其他较先进方法。文献[37]报道了Shi的数据集更好的F-measure值，但是F-measure的计算方式不同。首先用从1～255的阈值来计算文献[37]中的F-measure值，然后选择最大的F-measure值作为结果。相比之下，本节采用阈值为非聚焦模糊检测均值的1.5倍来计算F-measure值，以便与文献[11]进行公平比较。此外，本节与文献[37]之间存在不一致的F-measure值，原因是文献[37]中的非聚焦模糊检测图是以与本节相反的方式表示的。具体来说，本节用值1表示聚焦区域，用值0表示非聚焦区域。

表2.3.2 F-measure值、MAE值和SS-measure值的定量比较2

图像尺度对称协作策略：比较本节模型中不同级联级的性能如下：1级（1S）IS2CNet，输入图像尺度S1={1}；2级（2S）IS2CNet，输入图像尺度S2={1，0.8}；3级（3S）IS2CNet，输入图像尺度S3={1，0.8，0.6}；4级（4S）IS2CNet，输入图像尺度S4={1，0.8，0.6，0.8}；而5级（5S）IS2CNet，输入图像尺度S5={1，0.8，0.6，0.8，1}。表2.3.3所示为Shi的数据集上的F-measure值、MAE值和SS-measure值对图像尺度对称合作策略的分析。从该表可以看出，随着级联级的增加，非聚焦模糊检测任务逐渐改善，并且5级IS2CNet已经表现出优异的性能。图2.3.11所示为使用图像尺度对称合作策略生成多级级联非聚焦模糊检测图的图示。

表2.3.3 Shi的数据集上的F-measure值、MAE值和SS-measure值对图像尺度对称合作策略的分析

图2.3.11 使用图像尺度对称合作策略生成多级级联非聚焦模糊检测图的图示

此外，受文献[48]的启发，本节比较了从小到大的不同比例因子的尺度设计。具体来说，考虑两个比例因子：S3={0.6，0.8，1}和S3={0.25，0.5，1}，分别命名为3S ＇和3S " 。从表2.3.3可以看出，3S的表现优于3S ＇或3S " 。

一个原因可能是3S在图像尺度由大到小的过程中逐渐分散了对图像内容的接收，从而更好地检测同质区域。况且3S表现比3S " 好。可能是比例为0.25时产生的图像太小，并且其模糊区域容易被错误地识别为聚焦区域。因此，比例为0.25时的噪声非聚焦模糊检测图，会影响后续处理。为了进一步理解多尺度协作策略的有效性，本节设计并训练了一个IS2CNet的变体，如下：一个具有5个级联级的单规模级联网络（SCCNet）[见图2.3.8（a）]。使用Shi的数据集上的F-measure值、MAE值和SS-measure值对IS2CNet及其不同变体进行定量比较，如表2.3.4所示。IS2CNet将SCCNet的MAE值降低了33.3%。此外，IS2CNet显著提高了F-measure值和SS-measure值。残差图的可视化如图2.3.12所示。双向传送机制的多级级联网络以对称的形式逐渐学习残差形象金字塔。图像尺度由大到小的网络逐渐学习同质区域检测图的残差[见图2.3.12（a）和（b）]；而图像尺度由小到大的网络逐渐学习残差以细化过渡区边界[见图2.3.12（c）和（d）]。

图2.3.12 残差图的可视化

2.3.4.4 消融实验

为了进一步证明双向传送机制 ^[48] 的优越性，本节构建了两种单向传输级联网络：IS2CNet w/o CI和IS2CNet w/o CT[见图2.3.8（c）]。使用Shi的数据集上的F-measure值、MAE值和SS-measure值对IS2CNet及其不同变体进行定量比较，如表2.3.4所示。

表2.3.4 使用Shi的数据集上的F-measure值、MAE值和SS-measure值对IS2CNet及其不同变体进行定量比较

IS2CNet与IS2CNet w/o CI和IS2CNet w/o CT相比，MAE值分别降低了54.0%和47.6%，同时实现了F-measure值和SS-measure值的增加。

7种先进方法的比较如图2.3.13所示。使用Shi的数据集和Zhao的数据集比较精确率、召回率和F-measure如图2.3.14所示。使用Zhao的数据集上的F-measure值、MAE值和SS-measure值对IS2CNet及其不同变体进行定量比较如表2.3.5所示。由IS2CNet生成的故障实例如图2.3.15所示。

图2.3.13 7种先进方法的比较

图2.3.14 使用Shi的数据集和Zhao的数据集比较精确率、召回率和F-measure

表2.3.5 使用Zhao的数据集上的F-measure值、MAE值和SS-measure值对IS2CNet及其不同变体进行定量比较

图2.3.15 由IS2CNet生成的故障实例

不同数量的块作为骨干的非聚焦模糊检测性能：在IS2CNet中分析具有不同数量的特征编码器块的非聚焦模糊检测性能。具体来说，将实现的IS2CNet与一个块（命名为IS2CNet-1B）、两个块（命名为IS2CNet-2B）、三个块（命名为IS2CNet-3B）、四个块（命名为IS2CNet-4B）和五个块（命名为IS2CNet-5B）进行比较。使用F-measure值和MAE值对本节的编码器模型中不同层的量化进行比较如表2.3.6所示。分级特征集成：以s为单位。本节将所有级别的输出传播到金字塔中的下一个尺度，这与文献[23]的多尺度方法不同，该方法只传播中间一个级别的输出。本节通过将不同级别的输出传播到金字塔中的下一级来比较性能，如下所示：仅第3级特征集成（IS2CNet-F{3}）；2级和3级特征集成（IS2CNet-F{2，3}）；全级特性集成（IS2CNet-F{1，2，3}）。表2.3.5中显示了定量比较结果。全级集成（IS2CNet-F{1，2，3}）由于采用了多级分层功能而实现了最佳性能。

表2.3.6 使用F-measure值和MAE值对本节的编码器模型中不同层的量化进行比较

随着数量的增加，非聚焦模糊检测的性能会变得更好（见表2.3.5）。与IS2CNet-3B相比，IS2CNet-4B和IS2CNet-5B在F-measure和MAE上的改进并不大，但会引入更多的参数。因此，本节选择三层结构的特征编码器。