购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 图像非聚焦模糊处理的目的和意义

随着科学技术的迅速发展及电子产品的不断普及,数字图像的传播和应用变得越来越广泛。在各种数字图像采集场景中,成像模糊是较普遍且多发的问题。根据形成原因,图像模糊一般可以分为运动模糊和非聚焦模糊。运动模糊主要是由相机抖动或者被摄物体相对运动所导致的;而非聚焦模糊主要是由成像系统的景深受限所导致的。非聚焦模糊产生原因示意图如图1.1.1所示。对于由一系列光学透镜组成的镜头,其可以在每次拍摄时以一定深度聚焦,处于该深度范围内的被摄物体成像是清晰的,这段距离范围被称为景深。但是,受限于光圈大小、镜头焦距等各种因素的影响,景深范围总是有限的,只有处于焦平面附近区域的被摄物体才有最好的成像清晰度,拍摄处于远离焦平面区域内的物体则会产生模糊,这种模糊即非聚焦模糊。本书将着重讨论由非聚焦引起的模糊。

图1.1.1 非聚焦模糊产生原因示意图

无论是对于人类视觉感知还是对于计算机处理而言,清晰的图像在多数情况下都比模糊的图像提供的信息多,因此对图像非聚焦模糊进行处理具有一定的实用性价值。目前,图像非聚焦模糊处理手段主要可以分为非聚焦模糊检测和非聚焦去模糊两类,前者旨在检测图像的每个像素属于聚焦清晰区域还是非聚焦模糊区域,并完成对图像中清晰区域和模糊区域的有效分割,而后者则需要将输入图像的非聚焦模糊区域,转变为在理想情况下拍摄的聚焦情形,使原本模糊的图像变得清晰可见。上述两类非聚焦模糊处理手段侧重于在不同角度对非聚焦模糊图像进行处理,非聚焦模糊检测更多地作为一种对图像进行质量评价和深入理解的手段,经其处理后,人类视觉或计算机能够增强对该输入图像的理解和场景的解释。因此,非聚焦模糊检测常被用于自动聚焦 [1] 、图像恢复 [2] 、图像重定目标 [3] 等需要对图像进行深入理解的应用中。而非聚焦去模糊处理则更直观地试图将非聚焦模糊图像转变为聚焦图像,并尽可能地还原由于非聚焦模糊导致的在图像退化中丢失的信息,这实际上增加了非聚焦模糊图像的信息量,因此其常被用于语义分割 [4] 、追踪 [5] 等需要高质量图像的后续任务中。

随着硬件和计算机性能的不断提高,图像非聚焦模糊处理也随之发展,顺应智能化潮流,已有越来越多基于深度学习的图像非聚焦模糊智能处理方法被提出,也有越来越多适合非聚焦模糊处理的应用场合出现。例如,随着生活水平的提高,人们追求更好的照片拍摄效果,此时非聚焦模糊智能处理方法能用于处理拍摄过程中和所拍摄的照片模糊的问题及对图像数据进行清洗,从而保障各类深度学习模型的训练。可以预见的是,作为模糊这一广泛存在的图像退化问题的应对方法,非聚焦模糊智能处理方法将持续保有实用价值和泛用性。 rx3LzRy84WQtlbQrtQJboP20ouhuc/LfwXAPgRrMJ8hpfeQBsQWdrtwArRmxT1Zg



1.2 图像非聚焦模糊处理中的相关基本概念

1.2.1 非聚焦模糊图像的定义及类别

为明确图像非聚焦模糊处理的处理对象以便后续讨论,本节将介绍非聚焦模糊图像的定义及类别。在各类研究中,常将非聚焦模糊图像中的模糊区域称为离焦区域,清晰区域称为聚焦区域。并且,在各类非聚焦模糊检测方法的输出和非聚焦模糊检测训练数据集中,经常将聚焦区域标记为白色(值为1),非聚焦区域标记为黑色(值为0),最终形成一个分割出离焦区域和聚焦区域的二值图掩模,如图1.2.1的第二行所示。

除了较常见的由模糊前景和清晰背景组成的非聚焦模糊图像,在各类场景下还会产生其他种类的非聚焦模糊图像。具体来讲,可以将非聚焦模糊种类分为前景聚焦背景模糊的前景聚焦场景、前景模糊背景聚焦的背景聚焦场景、前景和背景全部模糊的全离焦场景,此外,还有前景和背景全部聚焦的全聚焦场景。各类非聚焦模糊图像请参考图1.2.1。鉴于各类非聚焦模糊的不同特性,图像的非聚焦模糊处理方法往往需要有针对性地做出改变。

图1.2.1 非聚焦模糊图像、非聚焦模糊检测图像及非聚焦模糊图像种类示意图

1.2.2 图像非聚焦模糊智能处理中的深度学习技术

随着硬件条件和相关技术的发展,深度学习被越来越多的关注,也在诸多场合发挥了相当的应用价值。因此,近年来也有大量基于深度学习的图像非聚焦模糊智能处理方法被提出。为使读者易于理解后续内容,本节将简单介绍图像非聚焦模糊智能处理部分重要的基本概念。

卷积神经网络(CNN)是深度学习领域最重要的组成部分之一。其应用范围包括但不局限于图像识别与检测、自然语言处理、视频数据识别与分析等。在卷积神经网络被大众熟知之前,图像处理一直是难以攻关的难题,一张图片通常有3个维度,分别是高、宽、通道数,通道数在彩色图片中即红、蓝、绿3个通道,在计算机中存储图片时,对应的三维矩阵即高的像素数×宽的像素数×3,当数据量非常大时,通常情况下一般的机器学习方法(如线性回归、随机森林)很难解决这类问题,对图像进行处理时便需要对该矩阵进行大量的计算,费时费力且计算成本极其高。在卷积神经网络出现后,受益于卷积神经网络局部感知和参数共享等特性,极大地降低了图像处理的复杂度和计算成本,为提高图像处理的实时性和准确性做出了巨大贡献 [6]

卷积神经网络的基本组成包括卷积层、池化层和全连接层,随着研究人员探索的逐渐深入,还扩展出了非线性激活层、批归一化层等。简单来说,卷积层的工作模式是用卷积核扫描图像,提取特征的。随着卷积次数的增加,图像的特征不断被提取和压缩,最终卷积层提取的特征层次越来越高,也就是说,卷积层对原始特征进行一步又一步地浓缩提取,从而得到能表示整张图像信息的可靠特征。卷积层的重要特点是能实现权值共享,在一个卷积层中,给定一张图像,用一个卷积核扫描图像,这张图像上的所有位置都是被同一个卷积核扫描的,权重相同。在卷积神经网络中,局部连接中隐藏层的每个神经元连接的局部图像权值都会共享给剩余的神经元使用。不管隐藏层包含多少个神经元,网络需要训练的仅是一组权值参数,也就是卷积核的大小,这样就极大地减少了计算参数量。在卷积层中,卷积核以滑窗的形式在其感受野内通过卷积运算进行特征提取,进而将其传输给后面的全连接层作为图像分类的依据。卷积层最重要的作用有两点:首先,卷积层局部感知、参数共享的特点大大降低了网络参数,且保证了网络的稀疏性;其次,通过卷积核的组合及随着网络后续操作的进行,模型靠近底部的卷积层提取的是局部的、高度通用的特征图,而靠近顶部的卷积层提取的是更加抽象的语义特征。

池化层的目的是对特征进行压缩,以减少特征中的冗余信息量,只保留最重要的部分信息,也叫作下采样。通常来说,池化层出现在卷积层之后,可以起到减少卷积层输出特征数量的作用,进而减少计算量,改善过拟合。具体做法是选择某个区域内所有像素的最大值或均值,随后以该值替换区域内的所有像素值,从而压缩特征。几种常见的池化操作有平均池化、最大池化、随机池化等。平均池化即对池化模板做均值化操作,优点是可以保留特征的整体特性,一定程度上可以去除噪声。最大池化即取池化模板内的最大值,优点是能提取特征更多的纹理特征,保留局部细节。随机池化即按照池化模板内值的大小分配选中概率,元素值越大,被选中的概率也越大,模板内各元素选中的概率和为1,但这种池化操作不够稳定。

全连接层的目的是将隐式的特征表示映射到样本标记空间,起到分类的作用,一般全连接层位于卷积神经网络的最后一层。与多层感知机类似,全连接层需要对输入的所有神经元做矩阵计算,从而得到最具代表性的特征信息。在实际应用中,通常使用1×1卷积层作为全连接层,全连接层的输入是上一层输出的所有特征值,对于分类任务来说,输出是一个长度为类别总数的向量,这个向量中的每一个预测值为该张图像属于这个类别的概率值,选择最大的预测值对应的分类结果为最终的图像类别。全连接层在卷积神经网络中大大降低了参数计算量,提高了模型对特征进行压缩提取的能力。

1.2.3 图像非聚焦模糊智能处理

本节将概括性地总结非聚焦模糊智能处理的基本流程及常见分类,作为后续章节介绍具体方法应用的前置知识。

非聚焦模糊检测的一般流程如图1.2.2所示。在一般性的方法中,非聚焦模糊检测都可以抽象凝练为:首先提取高度总结了输入图像关键信息的特征,其次设立相应的评判规则,最后根据所获取的特征判断图像的各部分是否为非聚焦模糊。在传统的非聚焦模糊检测中,特征提取常由手工设计的方法来完成,特征提取方法的设计主要依据频率、梯度等。同时,由特征判断图像是否模糊的判断规则,也基于所提取的特征的性质来人为裁定。而在基于深度学习的非聚焦模糊检测中,特征提取方法则由深度网络来完成,该部分的设计往往是整个流程的核心。后续基于网络提取的特征来判断是否模糊的工作,则交由全连接层等各类深度网络模块通过分类来完成。

图1.2.2 非聚焦模糊检测的一般流程

非聚焦模糊图像的去模糊任务,需要对图像进行直接处理以去除图像中的非聚焦模糊,相比仅是识别离焦区域的非聚焦模糊检测任务,非聚焦模糊图像的去模糊任务的整体流程则相对更多样化。传统的去模糊方法往往将模糊现象视为一种滤波器,即模糊图像由清晰图像与作为滤波器的模糊核卷积而来,故传统的去模糊方法试图通过已知或估计得来的模糊核,来对模糊图像进行反卷积操作。因此,去模糊可以分为已知模糊核的非盲去模糊和模糊核未知的盲去模糊 [7] ,一般来讲,盲去模糊更契合现实中的多数模糊情景,所以被更多地研究。在基于深度学习的去模糊中,则应用多种多样的深度网络结构来完成去模糊,如利用生成对抗式网络直接端到端地输出去模糊图像,或利用二阶段的网络先估计模糊核,再完成去模糊。 hmzbLhPSqd6oqnh8cahTGP6fgb8PT44+MUeZGuCxEdcAAU85OXkrFUqs6N9ynjFv



1.3 图像非聚焦模糊处理的设计要求和评估指标

1.3.1 图像非聚焦模糊处理的设计要求

对于非聚焦模糊检测的工程设计,往往需要考虑以下三个要素的相互制约:模糊检测的准确性、鲁棒性和实时性。模糊检测的准确性要求模糊区域和清晰区域的分割足够精准,是非聚焦模糊检测的基础要求。在各类实际应用场景中,非聚焦模糊的具体种类、模糊程度和对图像纹理与结构的改变程度都是多变且不稳定的因素,会极大地影响非聚焦模糊检测的准确性,因此要求非聚焦模糊检测方法具有一定的鲁棒性以应对各种模糊场景。非聚焦模糊检测方法能够广泛应用于各类系统中,如自动聚焦系统,因此在实际设计时还需要考虑方法的实时性以匹配系统整体的处理速度,其具体体现为方法每秒可以处理的图像帧数。以上三者相互制约、难以同时抵达最优,往往需要根据实际应用场景有所取舍和平衡。

对于非聚焦去模糊的工程设计,同样需要考虑非聚焦去模糊的综合性能、鲁棒性和实时性。相比非聚焦模糊检测,非聚焦去模糊的综合性能需要纳入更多因素进行衡量,具体而言可以分为信息量、保真度和清晰度三个因素。信息量表征去模糊过程成功从模糊这一图像退化现象中还原出清晰信息的能力,是确保非聚焦去模糊方法能在工程上应用于各类系统的关键度量。保真度则要求非聚焦去模糊方法保持原始图像清晰部分的真实性,避免方法引入失真或伪影,确保输出图像的综合质量。清晰度能直接衡量去模糊结果在视觉上的效果,一个成功的非聚焦去模糊方法应当能够提供清晰度较高的图像,使细节更突出、模糊边缘更锐利。

1.3.2 图像非聚焦模糊处理的评估指标

非聚焦模糊检测的常见评估指标如下。

(1)精确率和召回率(PR)曲线。精确率(Precision)是图像中的聚焦像素能够被正确检测的百分比,召回率(Recall)是被检测为聚焦像素的正确检测的百分比,两者从像素的角度直观地反映了非聚焦模糊检测的性能,两者的计算公式如下:

式中,TP、FP、FN分别表示预测为非聚焦像素且实际也为非聚焦像素的个数、预测为非聚焦像素但实际为聚焦像素的个数、预测为聚焦像素但实际为非聚焦像素的个数。

P 为纵坐标, R 为横坐标绘制点,将所有点连成曲线后即构成PR曲线,PR曲线能够同时反映方法的精确率和召回率,PR曲线与坐标轴围成的面积越大,代表方法同时保有的精确率和召回率越高。

(2)精确率和召回率的加权调和指标F-measure。F-measure是精确率和召回率的加权调和平均值,能更为全面、综合地反映算法的整体性能。

式中, β 为参数,更大的F-measure代表更好的方法性能。

(3)平均绝对误差(MAE)。MAE为方法输出的非聚焦模糊检测图和相应的真值二值图之间的平均像素的绝对差,整体上衡量了预测结果图和真值二值图之间的相似度,较小的MAE值通常意味着较准确的结果。

式中, x y 分别为像素的横坐标和纵坐标; W H 分别为图像的宽度和高度; G 为非聚焦模糊区域的检测真值; Y 为方法输出的检测结果。

非聚焦去模糊的常见评估指标如下。

(1)平均梯度(AG)。平均梯度常被用来描述图像中灰度或颜色的变化强度,平均梯度越大,图像的边缘细节越清晰。

式中, i j 为像素的坐标; x i j )为对应的像素值; M N 分别表示图像 x 的高度和宽度。

(2)信息熵(EN)。信息熵被用于衡量图像的信息含量,其值越大代表图像的信息量越多。

式中, L 为灰度级; p l 为灰度级 l 的归一化直方图。

(3)空间频率(SF)。空间频率被用于反映图像灰度的变化率,其值越大代表图像越清晰。

式中, i j 为像素的坐标; x i j )为对应的像素值; M N 分别表示图像 x 的高度和宽度。

(4)均方差(MSD)。均方差被用于衡量去模糊结果的图像质量,均方差越大一般代表图像清晰度越高。

式中, i j 为像素的坐标; x i j )为对应的像素值; M N 分别表示图像 x 的高度和宽度。

(5)峰值信噪比(PSNR)。峰值信噪比常用于评价图像质量、衡量图像的失真程度,其值越大代表去模糊处理后的图像质量越好,单位为dB。

式中,MAX I 为图像中像素的最大值;MSE为两张图像之间的平均平方误差; I i j 为输入图像 I 在像素位置( i j )的像素值; K i j 为非聚焦去模糊的像素级真值图像 K 在像素位置( i j )的像素值; w h 分别代表图像的宽度和高度。

(6)结构相似性(SSIM)。结构相似性用于衡量两张图像的相似度,从亮度(Luminance)、对比度(Contrast)和结构(Structure)三个方面进行比较。

式中, μ x μ y 分别为两张图像 x y 的平均值; 分别为两张图像 x y 的方差; σ xy 为图像 x y 的协方差; c 1 = k 1 L 2 c 2 = k 2 L 2 为维稳常数,其中 L 为像素值的动态范围, k 1 为0.01, k 2 为0.03。当两张图像完全一致时,结构相似性的值为1。 hmzbLhPSqd6oqnh8cahTGP6fgb8PT44+MUeZGuCxEdcAAU85OXkrFUqs6N9ynjFv

点击中间区域
呼出菜单
上一章
目录
下一章
×