目前基于手工提取特征和深度学习提取特征这两种方法都不能准确地检测以下区域的图像非聚焦模糊:低对比度聚焦区域和同质区域。为了精确地分离聚焦区域和非聚焦区域,本节提出了级联映射残差学习网络,利用多尺度特征学习技术,从不同尺度同时提取和融合高层语义信息和低层图像细节,从而有效地检测以上两个区域的非聚焦模糊。其中,高层语义信息可以辅助定位非聚焦区域,而低层图像细节可以帮助细化顶层的稀疏和不规则的检测图。多尺度模糊感知的示例如图2.2.1所示。
图2.2.1 多尺度模糊感知的示例
为综合利用多尺度和多层次特征,本节提出了一种自下向上-自上向下的网络(BTBNet),通过网络信息流的反馈,将高层特征和低层特征有效地融合起来,在像素级上集成低级线索和高级语义信息。BTBNet将具有低层特征的空间丰富信息的底部-顶部流与逐步编码在顶部-底部流中的高层语义知识相结合。本节还开发了一种融合和递归重建网络(FRRNet),用于递归地优化多尺度非聚焦模糊检测图。此外,本节还设计了一个级联残差学习网络(CRLNet)模型,通过学习从小尺度到大尺度的残差,逐步细化之前的模糊检测图,并输出最终的非聚焦模糊检测结果。实验结果表明,该模型的性能优于其他先进模型。本节所提出的方法可以准确地区分同质区域并抑制背景杂波[见图2.1.1(f)]。
本节的主要贡献可以概括如下:
(1)本节提出了一种新颖的多流全卷积网络BTBNet,用于直接从原始输入图像推断像素级非聚焦模糊检测图。这是首次利用端到端的深度网络来处理非聚焦模糊检测问题。该网络综合了多尺度和多层次特征,能够准确区分同质区域,检测低对比度聚焦区域,同时抑制背景杂波。
(2)本节提出的BTBNet,用于有效地将编码在自下向上流中的高层语义知识与编码在自上向下流中的低层特征逐步融合,并设计了一种FRRNet,用于递归地优化多尺度非聚焦模糊检测图,并输出最终的非聚焦模糊检测结果。此外,本节还设计了一种新的CRLNet,相比FRRNet,通过从小尺度到大尺度的级联非聚焦模糊检测图进行残差学习,逐步细化非聚焦模糊检测图,而不是递归重建非聚焦模糊检测图。
2.2.2.1 多流自下向上-自上向下网络
本节利用端到端全卷积网络来提取和集成非聚焦模糊检测的多级多尺度特征。本节所提出的非聚焦模糊检测方法的示例图如图2.2.2所示。非聚焦模糊检测的框架由两个互补的部分组成,一个多流BTBNet和一个CRLNet。首先多流BTBNet整合了来自不同尺度的自下向上和自上向下的特征,然后CRLNet通过残差学习策略将先前的模糊检测图从小尺度逐步细化到原始尺度。其中,多流BTBNet、CRLNet和模型训练的详细介绍如下。
本节的目标是设计一个端到端的BTBNet,它可以被视为一个将输入图像映射到像素级非聚焦模糊检测图的回归网络。在构思这样的架构时,考虑了以下几个方面。首先,网络应该足够深,以产生大的感受野来检测不同程度的非聚焦模糊;其次,网络需要同时利用低级线索和高级语义信息来提高非聚焦模糊检测的精度。模型需要微调现有的深度模型,因为标注的非聚焦模糊图像不足以从头开始训练这样的深度网络。本节选择VGG16网络 [23] 作为预训练网络,并修改它以满足需求。虽然VGG16网络在许多识别任务中表现出色,但是它在处理非聚焦模糊检测问题上有明显的局限性。多级空间池化对初始图像进行逐步下采样,导致精细图像的结构大量丢失。这对于分类任务是有利的,因为分类任务不需要空间信息,但是准确检测聚焦图像区域和非聚焦图像区域需要精细的图像结构。为了将原始VGG16网络转换为完全卷积网络,作为本节自下而上的主干网络,删除了VGG16网络顶部的3个全连接层,还删除了5个池化层,以增加自下而上非聚焦模糊检测图的分辨率,优化后的VGG16网络的输出分辨率与原始的输入分辨率相同。BTBNet结构图如图2.2.3所示。
图2.2.2 本节所提出的非聚焦模糊检测方法的示例图
图2.2.3 BTBNet结构图
本节设计了一个逐步反馈的过程,以使用自上向下的结构来扩充主干网络(见图2.2.3)。在自下向上的主干网络的每个块之间,将反馈信息与前向信息逐步结合起来,反馈信息和前向信息的融合是通过逐元素相加实现的。在每步的信息融合之前,本节在自下向上和自上向下的分支上分别添加了一个额外的卷积层和非线性激活(ReLU)单元层。额外的层分别具有3×3个核和256个通道、128个通道、64个通道和1个通道。最终输出的是一张非聚焦模糊检测图,其分辨率与原始输入图像的分辨率相同。考虑到非聚焦模糊与尺度的关系,本节同时使用了多个BTBNet,其中针对每个尺度都有一个网络。具体而言,输入图像被调整到多个不同的尺度( n =1,2,…, N ),并通过相应的BTBNet,产生具有相同分辨率尺度的非聚焦模糊检测图。最后本节使用双线性插值将这些非聚焦模糊检测图的分辨率调整到与原始输入图像相同的分辨率。
递归网络利用跳跃连接来整合不同层次的特征,如用于分割的UNet [13] 方法和用于对象检测的FPN方法 [4] 。UNet方法将高分辨率特征与上采样输出相结合,生成最细粒度的预测图。FPN方法利用具有横向连接的自上向下结构来构建高层特征和低层特征,从而生成对所有层次的预测。相比之下,本节方法不仅在每个层次或步骤上生成了非聚焦模糊检测图,而且进一步整合多步非聚焦模糊检测图生成了最终的非聚焦模糊检测图。此外,为了在每步都有效地融合反馈特征和前向特征,本节采用了带有ReLU的卷积层来将前向特征转换为与反馈特征相同幅度的特征。多流BTBNet可以生成一系列不同比例尺的非聚焦模糊检测图,需要进一步融合才能生成最终的非聚焦模糊检测结果。本节试图利用三种融合模型来执行融合任务,为了融合多流概率图,可以直接采用基于软权重的方法 [24] ,输出 由所有尺度上的概率图的加权和产生,公式如下:
式中, w n 表示从多流BTBNet生成的非聚焦模糊检测结果 M n 的权重; N 为非聚焦模糊检测图的总数。该模型仅将线性权重分配给多流非聚焦模糊检测图。因此,它不能有效地重建不完整的前景信息并抑制背景杂波[见图2.2.4(b)]。基于多流非聚焦模糊检测图的精化结果的比较如图2.2.4所示。
图2.2.4 基于多流非聚焦模糊检测图的精化结果的比较
2.2.2.2 融合多流模糊检测图
本节的FRRNet由两个子网络组成,即融合网络(FNet)和递归重建网络(RRNet)。首先,FNet将多流BTBNet生成的非聚焦模糊检测图融合起来,产生具有改进的空间相干性的非聚焦模糊检测图 M f 。然后,RRNet逐步递归地细化非聚焦模糊检测图 M f ,以得到最终的非聚焦模糊检测图 M final 。本节提出了一个简单而有效的FNet,用于融合多流非聚焦模糊检测图,如图2.2.5(a)所示。除了多流非聚焦模糊检测图,本节还利用原始图像的密集空间信息来提高融合图的空间一致性。多流非聚焦模糊检测图( M 1 , M 2 ,…, M N )和原始图像 I 1 首先被拼接成一个( N +3)通道的特征图 F 0 。然后这个特征图被输入到一系列的卷积层和非线性激活层。卷积层分别具有3×3个内核和64个通道、128个通道、64个通道和1个通道。卷积层的最终输出是融合的非聚焦模糊检测图 M f ,其分辨率与原始图像的分辨率相同。
式中, F t 为第 t 个卷积层生成的多通道特征。FNet非线性地融合了多流非聚焦模糊检测图,并利用了原始图像的密集空间信息。图2.2.4(d)展示了FNet可以生成更平滑且具有像素级精度的结果。
图2.2.5 FNet和RRNet的体系结构
为了进一步改进FNet生成的融合非聚焦模糊检测图的空间相干性,本节引入了RRNet来消除噪声。图2.2.5(b)显示了RRNet的体系结构,它与FNet具有相同的架构,但是具有不同的参数。在每次迭代中,将原始图像和输入的非聚焦模糊检测图一起通过RRNet,会得到细化的非聚焦模糊检测图,该图又作为下一次迭代中输入的非聚焦模糊检测图。输入的非聚焦模糊检测图被初始化为FNet生成的融合非聚焦模糊检测图 。设 R 表示递归建模的函数,最终的非聚焦模糊检测图 M final 可以通过以下方式获得
式中, W r 和 b r 表示RRNet的卷积滤波器和偏置。本节提出的RRNet可以通过纠正其先前的错误来改进非聚焦模糊检测图,直到在最后一次迭代中产生最终的非聚焦模糊检测图。实际上,使用三个迭代步骤就足以实现令人满意的性能。图2.2.4(d)展示了本节方法在使用RRNet后生成的非聚焦模糊检测图可以在前景中重建丢失的信息,并抑制背景中的噪声。
首先FRRNet直接将多流非聚焦模糊检测图上采样到原始尺度,然后同时处理这些非聚焦模糊检测图以得到最终输出。这种策略导致两个问题:①直接上采样降低了非聚焦模糊检测图的分辨率,导致聚焦区域和非聚焦区域的过渡边界模糊不清(见图2.2.4第一行);②同时处理这些非聚焦模糊检测图不可避免会受到每个尺度上背景噪声的干扰(见图2.2.4第二行)。为了解决上述问题,本节提出了一种逐步重建网络CRLNet,它从小尺度到大尺度逐步将输出的分辨率重建到原始图像的分辨率。在尺度由小到大的过程中,CRLNet逐渐定位聚焦区域和非聚焦区域的边界,并计算当前尺度上的残差特征。最后将输出的非聚焦模糊检测图和前一步的残差特征分别传递到当前步骤的尾部和中部。双路径传递机制提高了当前非聚焦模糊检测图的残差学习能力。此外,原始图像也被输入到CRLNet中,以指导当前步骤更好地学习残差特征。
CRLNet的体系结构如图2.2.6所示。首先多流非聚焦模糊检测图( M 1 , M 2 ,…, M N )和多尺度原始图像 I 1 , I 2 ,…, I N 分别拼接成一个4通道的特征图 ,然后将得到的特征图输入一系列带有3×3核和非线性激活层的卷积层,包括两个具有64个通道的卷积层、池化(Pool)层、两个具有128个通道的卷积层和三个具有256个通道的卷积层。卷积层最终的输出是当前多流非聚焦模糊检测图的残差特征。
图2.2.6 CLRNet的体系结构
第 n 个输出细化图 可由下式获得
式中,⊕表示逐元素相加;而( )通过上采样操作将第( n -1)个输出细化图放大到当前尺度[见图2.2.4(f)],CRLNet不仅能产生更清晰的背景,还能更好地保留过渡区域边界的像素级精度。CLRNet和SCCRLNet体系结构的比较如图2.2.7所示。
图2.2.7 CLRNet和SCCRLNet体系结构的比较
残差学习 [25] 是为了解决深度网络性能下降问题而提出的。通过假设残差特征比原始特征更容易学习,使残差网络显式地学习几个堆叠层的残差映射。虽然残差学习策略已用于低级任务,如图像超分辨率 [26] 和图像去噪 [27] ,但它在基于深度学习的非聚焦模糊检测框架中尚未被研究。如前所述,BTBNet能产生一个初始的粗糙的非聚焦模糊检测图。因此,本节只需要专注于学习高度非线性的残差,以减轻重复学习非聚焦模糊检测映射的负担。例如,在初始非聚焦模糊检测映射已经是最优的极端情况下,残差学习网络只需要生成零残差来保持最优。利用BTBNet产生的多尺度非聚焦模糊检测映射,本节设计了一个级联的非聚焦模糊检测映射残差学习结构,从小尺度到大尺度逐步学习残差。这种由粗到细的残差学习策略实现了更好的细化效果。具体来说,本节的残差学习结构与文献[26]和文献[27]的有两个主要区别:文献[26]和文献[27]中的方法仅在单一尺度输入上应用残差学习,而本节的CRLNet在前面较小尺度上生成的非聚焦模糊检测图上逐步应用残差学习。这种基于尺度金字塔的残差学习结构能通过分步机制更有效地实现残差学习。
本节设计了一种双路径传递机制,将当前非聚焦模糊检测图和残差特征分别传递到下一个网络的尾部和中部,以增强残差学习能力。此外,本节将BTBNet生成的当前非聚焦模糊检测图和调整后的原始图像作为输入,从而指导当前步骤更好地学习残差特征。PANG等人 [28] 也提出了一种残差学习方法,该方法在单个尺度输入上跨多个特征层次来实现残差学习。相比之下,本节的CRLNet则在前面生成的非聚焦模糊检测图上一步一步地应用残差学习。多尺度输入策略为下一个CRLNet的残差学习提供了改进的非聚焦模糊检测图,提高了残差学习的简单性和效率。此外,CRLNet通过逐渐将小尺度非聚焦模糊检测图输入到大尺度网络中,用以粗到细的方式学习残差,从而实现改进的细化效果。
本节使用像素级标注的训练图像来确定网络参数,并联合训练多流BTBNet和FRRNet,使用标准随机梯度下降法来优化它们的参数。首先使用在ImageNet上预训练的VGG16网络来初始化自下向上的主干网络,并用随机值初始化自上向下的流和FRRNet;然后联合微调多流BTBNet和FRRNet,给定训练集{ T =( Xd , Gd )} Dd =1,其中包含训练图像 Xd 及其逐像素的非聚焦模糊检测标注 Gd , D 是训练图像的数量, d 代表从当前数据集采集的一个数据。网络输出 Md 和真值 Gd 之间的像素级损失函数定义如下:
式中, ; 和 分别为第 d 个网络输出和像素( i , j )的真值;{ W , b }为所有网络层的参数集合。
为了提高模型的性能,本节在每个多流BTBNet的输出端应用了一个辅助损失。主损失函数和辅助损失函数都有助于优化学习过程。因此,最终的损失函数由主损失和辅助损失构成,表示为
2.2.4.1 实施细节和数据集
目前只有一个公开的模糊图像数据集 [8] (Shi的数据集)可用于研究和评估非聚焦模糊检测。这个数据集由704张部分非聚焦模糊图像和人工标注的真值图像组成。本节首先将Shi的数据集分成两部分,即604张图像用于训练,其余100张图像用于测试。然后按照文献[29-30]中的方法对训练集进行数据增强。具体地,通过在每个方向上水平翻转并旋转到8个不同的角度,训练集被扩充到9664张图像。此外,为了促进非聚焦模糊检测方法的研究和评估,本节提出了一个新的非聚焦模糊检测数据集,由500张图像组成,带有逐像素标注。该数据集非常具有挑战性,因为许多图像包含同质区域、低对比度聚焦区域和背景杂波。本节对之前的数据集进行了扩展,添加了600张具有挑战性的图像作为训练,这些图像都有像素级标注,这是构建由训练和测试部分组成的非聚焦模糊数据集的首次尝试。本节提出的数据集中的图像具有以下特点:①场景多样;②图像包含不同尺度的同质区域;③背景(非聚焦区域)复杂;④聚焦区域对比度低。为了提高标注的准确性,本节邀请了三名志愿者使用定制设计的交互式分割工具分别标注1100张图像中的聚焦区域。通过平均三个独立标注的掩模得到最终的非聚焦模糊检测标注。
图2.2.8所示为本节提出的数据集中带有真值标签的图像。此外,本节还设计了一个模拟图像数据集,通过其生成更多的非聚焦图像来训练深度网络,从分割数据集 [31] 和未压缩彩色图像数据集 [32] 中收集了2000张清晰图像。用于生成模拟非聚焦模糊图像的代表性图像如图2.2.9所示。图2.2.10所示为给定清晰图像及其真值图后生成的模拟非聚焦模糊图像。本节使用模拟图像数据集来预训练模型,使模型学习区分聚焦区域和非聚焦模糊区域的一般特征。最后在Shi的数据集和本节提出的数据集中微调模型,用于学习模型中的高级语义表示。
图2.2.8 本节提出的数据集中带有真值标签的图像
图2.2.9 用于生成模拟非聚焦模糊图像的代表性图像
图2.2.10 给定清晰图像及其真值图后生成的模拟非聚焦模糊图像
本节的网络是基于Caffe框架实现的。使用小批量梯度下降法优化分类目标来进行训练,批量大小为1。首先使用在ImageNet上预训练的VGG16网络来初始化自下向上的主干网络,并用随机值初始化自上向下的流和FRRNet。使用像素级标注的训练图像来确定网络参数,并联合训练多流BTBNet和FRRNet,使用标准随机梯度下降法优化它们的参数。其次通过在模拟图像数据集上对网络进行预训练来微调网络。具体来说,本节从数据集 [31] 和未压缩的彩色图像数据集中收集了2000张清晰图像。对每张图像应用高斯滤波器来平滑图像的一半作为非聚焦模糊区域,而保留另一半作为聚焦区域。最后通过对每张图像的不同位置(上、下、左和右)区域进行平滑,得到4个模糊版本。对于每个模糊版本,使用标准差为2、窗口为7像素×7像素的高斯滤波器重复模糊图像5次。因此对于每张图像,可以得到20张模拟图像(4个模糊版本,每个版本有5个不同的模糊程度)。通过对上述数据的增强,得到640000张预训练图像。本节在Shi的数据集上对网络进行了微调。对于主干网络,将初始学习率设置为0.0001,对于新添加的层,将初始学习率设置为0.001,动量参数为0.9,权重衰减为0.0005。本节在一台配备了32GB内存的Intel 3.4GHz CPU和11GB内存的GTX1080TI GPU工作站上训练本节提出的模型,并在大约5天后完成训练。对于320像素×320像素的测试图像,生成非聚焦模糊检测图大约需要25s(秒)。
2.2.4.2 评价标准
为了评价不同的非聚焦模糊检测方法,本节将Shi的数据集分成两部分:604张图像用于训练,其余100张图像用于测试。此外,将本节提出的数据集分成两部分:600张训练图像和500张测试图像。本节执行文献[33]中的数据扩充。
本节采用精确率、召回率、PR曲线、F-measure和MAE对非聚焦模糊检测方法进行评价,各指标的介绍请参照1.3.2节。对于PR曲线 [5,9,18,34] ,所有非聚焦模糊检测图在[0,255]范围内的每个整数阈值都被二值化,并与二进制真值掩模比较,通过计算精确率和召回率获取PR曲线。在计算精确率、召回率和F-measure时,每个非聚焦模糊检测图都被自适应阈值二值化,阈值为非聚焦模糊检测图平均值的1.5倍。
2.2.4.3 对比实验
本节将由(BTBNets+FRRNet)和(BTBNets+CRLNet)组成的方法(分别表示为BTBFRR和BTBCRL)与5种较先进的方法进行比较,包括判别模糊检测特征(DBDF) [9] 、光谱和空间(SS) [17] 、深度和手工制作的特征(DHCF) [34] 、局部二元进制模式(LBP) [18] 及高频多尺度融合和梯度幅度排序变换(HiFST) [7] 。本节使用这些方法的原始实现和推荐的参数进行定性评价。图2.2.11所示为本节提出的方法和其他先进方法生成的非聚焦模糊检测图。本节提出的方法[见图2.2.11(g)和(h)]在各种具有挑战性的情况(如均匀区域、低对比度聚焦区域和杂乱背景)下表现都良好,能产生最接近真值的非聚焦模糊检测图。
图2.2.11 本节提出的方法和其他先进方法生成的非聚焦模糊检测图
定量评估。图2.2.12和图2.2.13中展示了PR曲线和F-measure,可以看出,本节提出的方法在数据集和所有评估指标上都实现了最佳性能。此外,本节提出的方法与其他先进方法在F-measure和MAE指标上进行了定量比较,结果如表2.2.1所示。
图2.2.12 使用Shi的数据集和本节提出的数据集比较7种先进方法的PR曲线
图2.2.13 使用Shi的数据集和本节提出的数据集比较精确率、召回率和F-measure
表2.2.1 F-measure和MAE的定量比较结果
可以看出,本节的BTBCRL方法与性能较好的BTBFRR方法相比,MAE在Shi的数据集和本节提出的数据集上分别降低了30.5%和40.6%。此外,BTBCRL方法与BTBFRR方法相比,在两个数据集上分别将F-measure提高了2.5%和8.7%。总之,由于本节的BTBNet有效地融合了高层语义信息,以及对低层特征的空间丰富信息,因此本节提出的方法实现了相对于其他先进方法的实质性改进。高级语义信息被转换到低层语义信息,以帮助更好地定位非聚焦区域。同时,丰富的低层特征有助于细化顶层的稀疏和不规则检测图。此外,本节还设计了一个CRLNet来进一步提高先前提出的FRRNet [31] 的性能。CRLNet从小尺度到大尺度逐步定位聚焦区域和非聚焦区域的边界,克服了FRRNet在直接上采样的同时处理非聚焦模糊检测图的缺点。
2.2.4.4 消融实验
为了证明BTBNet的优越性,本节训练了一个基于VGG16网络的全卷积网络,记为VGGNet(FC)进行比较。具体来说,本节去掉了VGG16网络上面的三个全连接层。VGGNet(FC)使用与BTBNet相同的设置进行训练。本节将VGGNet(FC)与名为BTBNet(1S)的单流BTBNet进行比较。使用F-measure和MAE对BTBNet的有效性进行分析如表2.2.2所示。
表2.2.2 使用F-measure和MAE对BTBNet的有效性进行分析
对比MAE,BTBNet(1S)方法比VGGNet(FC)方法在Shi的数据集和本节提出的数据集上分别降低了33.1%和9.0%。此外,BTBNet(1S)提高了两个数据集上的F-measure得分。CRLNet取代了FRRNet,以逐步细化多流BTBNet生成的多尺度非聚焦模糊检测图,利用从小尺度到大尺度的级联非聚焦模糊检测映射残差学习来提高性能。为了分析CRLNet的相对贡献,本节通过以下方法进行比较:①作为直接后处理步骤的非基于深度学习的图像引导滤波方法(MSJF) [35] ;②融合递归重构网络(FRRNet);③直接平均每一步的RLNet输出(ARL net);④具有非共享参数的CRLNet[CRLNet(非共享)]。本节用规模s3={1,0.8,0.6}和用VGG16网络参数初始化的相同配置来实现这些网络,训练策略是固定BTBNet来微调CRLNet,MSJF用文献[35]中的参数实现。
表2.2.3所示为使用F-measure和MAE对CRLNet的有效性进行分析。MSJF使用低级特征(如颜色和边缘)作为参考来抑制非聚焦模糊检测图上的噪声,导致性能不佳,其F-measure值比本节的CRLNet的F-measure值低,MAE值比本节的CRLNet的MAE值高。与ARLNet相比,基于级联映射残差学习结构的CRLNet(share)在Shi的数据集和本节提出的数据集上MAE值分别降低了23.5%和10.9%。此外,CRLNet(share)改进了两个数据集的F-measure。CRLNet中的不同步骤(除了第一步)能处理学习残差的相同任务。因此,各个步骤可以共享参数以减少存储。表2.2.3显示,CRLNet(share)比CRLNet(unshare)更具有竞争力或具有更高的性能。特别地,CRLNet(share)在Shi的数据集和本节提出的数据集上MAE值分别降低了11.1%和9.5%,因为CRLNet(unshare)具有更多的参数,这导致收敛困难。可视化比较结果和收敛性分析CRLNet(share)和CRLNet(unshare)的资料可以在补充资料中找到。通过分解成不同的级联步骤来分析CRLNet,如下所示:第1步CRLNet具有输入图像的尺度s1={0.6}和由BTBNet生成的非聚焦模糊检测图,输入图像和非聚焦模糊检测图的尺度s2={0.8,0.6};第2步CRLNet具有输入图像和非聚焦模糊检测图的比例s3={1,0.8,0.6};第3步CRLNet。
表2.2.3 使用F-measure和MAE对CRLNet的有效性进行分析
表2.2.4和表2.2.5展示了使用F-measure和MAE对它们的性能进行的详细比较。可以看出,随着级联步骤的增加,性能逐渐提高,3级CRLNet表现出最佳性能。
表2.2.4 Shi的数据集上F-measure和MAE的定量结果比较
表2.2.5 本节提出的数据集上F-measure值和MAE值的定量结果比较
多步级联非聚焦模糊检测细化的直观比较如图2.2.14所示。图2.2.14(a)~(c)所示分别为CRL(1S)、CRL(2S)和CRL(3S)的结果。可以看出,图2.2.14(b)所示的图像逐步恢复了非聚焦模糊检测图的精细结构,只有一个公共模糊图像数据集[19](由704张非聚焦模糊图像组成的数据集)可用于像素级非聚焦模糊检测。由于与非聚焦模糊检测相关的挑战(如同质区域的区分、低对比度聚焦区域的检测和背景杂波的抑制)需要大规模数据集,因此本节构建了一个新的非聚焦模糊检测数据集,它由1100张图像(600图像用于训练,500张图像用于测试)组成,并带有逐像素标注。此外,模拟图像标签比详细图像标签更容易收集,也更方便进行像素标注。因此,本节首先构建了一个由40000张图像组成的模拟图像数据集进行预训练,使BTBNet能够学习及区分焦点对准和焦点不对准区域的一般特征。然后在Shi的数据集和本节提出的数据集上进行微调,以学习网络中的高级语义表示。
本节设计了4种数据集来训练BTBNet进行比较,以分析本节提出的数据集的相对贡献。这些方法是:①用Shi的数据集(DT-ShD)直接训练BTBNet;②用模拟数据集(PT-SD)预训练BTBNet;③用Shi的数据集[FT-(SD+ShD)]微调BTBNet;④用Shi的数据集和本节提出的数据集[FT-(SD+ShD+OD)]微调BTBNet。表2.2.6所示为使用F-measure和MAE对数据集进行消融分析。该表表明,PT-SD在Shi的数据集和本节提出的数据集上分别获得了0.462和0.462的F-measure值,以及0.367和0.383的MAE值,PT-SD的这些值次于DT-ShD的这些值。然而,在微调之后,基于预训练机制的FT-(SD+ShD)将DT-ShD实现的F-measure值分别提高了7.9%和3.4%,将MAE值分别降低了50.4%和21.2%。此外,通过添加本节的像素标注数据集来微调BTBNet,提高了方法的性能。关于F-measure值,FT-(SD+ShD+OD)在Shi的数据集和本节提出的数据集上比FT-(SD+ShD)分别提高了5.2%和7.3%,但降低了FT-(SD+ShD+OD)在两个数据集上的MAE值。本节提出的数据集上的非聚焦图具有固定的形状,包含用于一般特征学习的粗糙聚焦区域或模糊区域。本节又构建了另一个形状不固定的模拟数据集PT-SDUS。具体地,每个原始图像被分成16个小块,用5种不同的模糊等级随机模糊8个面片。
图2.2.14 多步级联非聚焦模糊检测细化的直观比较
表2.2.6 使用F-measure和MAE对数据集进行消融分析
在表2.2.6中,BTBNet在形状不固定的模拟数据集PT-SDUS上预训练生成的结果比在模拟数据集PT-SD上预训练生成的结果差。原因在于,尽管随机修补增强了样本的多样性,但不固定的形状比固定的形状对场景纹理的损害更大,从而导致网络难以学习一般的低级特征。基于PT-SDUS的微调BTBNet,使用Shi的数据集和本节提出的数据集[FT-(SD+ShD+OD)]进行微调,本节提出的方法在上述两个数据集上分别实现了0.827和0.768的F-measure值及0.147和0.204的MAE值。图2.2.15所示为BTBNet在不同数据集的可视化。图2.2.15(b)用模拟数据集预先训练BTBNet,能够学习一般特征(如场景纹理),以区分聚焦区域和非聚焦区域。基于预训练机制的FT-(SD+ShD)[见图2.2.15(d)]比DT-ShD[见图2.2.15(c)]产生的结果更好(如尖锐的非聚焦模糊检测边界)。通过添加本节的每像素带标注的数据集来微调网络所获得的结果,突出聚焦区域并有效定位边界,如图2.2.15(e)所示。
图2.2.15 BTBNet在不同数据集的可视化