关于遥感图像的目标分割问题,国内外研究人员开展了广泛而深入的研究。目前,遥感图像目标分割的方法大致可以分为传统的分割方法和学习的分割方法。
传统的遥感图像分割方法在进行目标特征低秩化时,常通过手动方式提取目标的特征,并在此基础上建立特征空间与分割目标的映射模型。
采用学习的方法实现遥感图像目标分割的策略包括两类:一是手动提取特征并自动学习映射模型的浅层神经网络、支持向量机、模糊推理等;二是通过深度神经网络实现特征的自动提取和映射模型的自动学习建立。
传统的遥感图像目标分割方法是手动提取特征并建立分割映射模型。构建的模型不同,或者构建模型的方法不同,即可认为是不同的目标分割方法。主要的遥感图像目标分割方法包括:
1967年,James MacQueen [7] 首次提出 K -means。 K -means是通过检测测试数据集之间的距离实现数据分类。在一幅遥感图像中,将所有像素点的颜色信息作为一个数据点,同时构建一个基于欧氏距离的能量泛函,通过迭代计算,若使所有数据点对应的能量泛函最小,则完成像素点的分类,从而完成图像分割。构建的能量泛函如下:
其中, K 表示需要分割的种类, m i 表示随机选取的第 i 个随机质心, s i 表示第 i 个质心的聚类域。能量泛函 E 表示聚类域中所有像素数据点到质心的欧氏距离。经过迭代,如果选取的质心能使泛函 E 最小,则对应的聚类域就是分割域 [8-11] 。
目前国内外,采用 K -means聚类方法实现遥感图像特定目标分类的工作主要包括:文献[12]研究了利用 K -means聚类方法进行遥感图像分类时阈值的确定方法,使分割目标和背景的分离效果更加清晰。文献[13]将小波变换引入 K -means聚类中,对抚仙湖地区的遥感图像进行分类研究,有效提高了林地、裸地及农田的分割精度。文献[14]提出一个大范围的类别不平衡灵敏度分析诊断框架,采用遗传算法和 K -means方法构建自组织聚类方式。文献[15]以复杂的温带森林为例进行了基于X波段InSAR(Interferometric Synthetic Aperture Radar)数据的无监督两阶段聚类森林结构分类方法研究。文献[16]提出一种结合邻域联合直方图的 K -means聚类方法,用于高光谱遥感图像的二级聚类,提高了土地覆盖分类的精度。
在分水岭算法中,将遥感图像中的所有像素点当作地貌拓扑中的地标,像素点的灰度值即为海拔高度,则局部海拔极小值的邻域为集水盆;通过“浸水法”使两个集水盆不断融合,最后在两个集水盆间构建局部极大值作为分水岭。该分水岭也就是分割目标的边缘信息 [17 , 18] 。
国内外采用分水岭算法实现遥感图像特定目标分类的研究包括:文献[19]将遥感图像的光谱强度和纹理信息引入分水岭算法中集水盆的构建,有效提高了目标边界的定位和分割精度。文献[20]在分水岭算法中引入植被指数用于激光雷达点云数据的建筑物分割。文献[21]在水平集构建中引入形态学滤波方法和极值标注,有效抑制了过分现象,提高了遥感图像目标分割的精度。文献[22]将分水岭算法分为两个关键步骤,采用边缘检测算子和Meyer标注图像,提高了目标的分割精度。文献[23]在确定分水岭后通过目标检测算法对“高分二号”遥感图像中的车辆进行检测。文献[24]将分水岭算法用于WorldView-2遥感图像的分割,并通过多分辨率提高了目标的分割精度。文献[25]采用分水岭的进化方法实现了对“风云三号”和“高分一号”遥感图像中水质的监测。
主动轮廓模型(Active Contour Model,ACM)能通过闭合分割曲线的进化,实现对目标的精确分割,已在数字图像处理中得到了广泛应用 [26-31] 。主动轮廓模型将某一闭合曲线看作是能量泛函的变量,而目标分割则是在一定约束条件下,求解使能量泛函最小化的闭合曲线。通常情况下能量泛函由闭合曲线的内外两部分构成,因此引入水平集函数可以方便地将整个图像分为曲线内外两部分,为能量泛函中闭合曲线的进化提供显性的代数表达形式。
主动轮廓模型的研究工作主要围绕如何建立合理的能量泛函展开,并经历了从边缘检测模型到区域信息统计模型的发展过程。其中著名的模型包括:Snake模型 [27] 、Geodesic模型 [28] 和CV(Chen and Vese)模型 [26] 。Snake模型和Geodesic模型在能量泛函中均引入了梯度信息作为边缘检测项,当检测到图像梯度跳变时即停止闭合曲线的进化,这使该类模型只能检测目标的外边缘,而对内边缘无效。若目标边缘不明显(即边缘梯度较小),有可能使这类模型失效。CV模型是基于区域信息的主动轮廓模型,通过统计封闭曲线内外像素的灰度信息使能量泛函最小。该模型避免了对图像梯度信息的依赖,封闭曲线的进化结果对初始值不敏感,且可以检测目标的内部边缘,是一种比较成功的图像分割算法。因此,CV模型迅速地被广泛应用于各类图像的分割。人们对CV模型的研究也不断深入,并针对不同的图像提出多种改进算法。如文献[30]对灰度不均图像提出的基于局部灰度聚类特性的CV改进模型;文献[32]结合图像梯度信息提出选择二值化及高斯滤波正则水平集方法;文献[33]提出基于卷积神经网络自适应参数的主动轮廓模型等。
根据主动轮廓模型的优势,并针对遥感图像中不同分割目标的特点,科研人员逐步将主动轮廓模型引入遥感图像的目标分割。文献[34]提出一种改进的主动轮廓模型,实现检测全景海域图像中的椭圆海天线。文献[35]提出一种基于区域的正则化几何主动轮廓模型用于海岸线的分割,以应对SAR图像中不规则相干噪声的影响,其核心思想是通过建立主动轮廓模型中表征区域的系数与等效视数之间的非线性关系,并依此调节区域系数以提高分割的准确性。文献[36]针对遥感图像中河流的分割,提出了一种基于对称交叉熵的主动轮廓模型。该模型的外部能量项由对称交叉熵构成,而区域滤波中心则由内部像素灰度的中位值代替,以提高河流分割的准确性。文献[37]为监控青藏高原湖泊资源,对“高分二号”遥感图像采用CV主动轮廓模型方法实现了水域分割。
在传统的遥感图像分割方法中,特征的提取和模型的建立都是手动完成的。然而在遥感图像特定目标分割中,特征空间到分割目标间的映射关系为高维强非线性映射,手动的方式难以有效构建这类模型。为此,人们提出了各类基于学习的遥感图像分割方法,通过样本学习建立这类高维强非线性映射关系。基于学习的遥感图像分割方法,构建遥感图像目标分割模型的进化与人工智能的发展同步,主要分为以下3类。
人工神经网络模拟人类大脑神经网络的构建形式,通过连接主义(connectionism) [38] 学习输入信号到输出信号间的映射模型。作为一种智能信息处理系统,人工神经网络实现其功能的核心是算法。在人工神经网络的发展历程中,浅层神经网络因为只需要少量样本而被广泛使用 [39] ,其中BP(Back Propagation)神经网络是较为突出的代表。BP神经网络是一种按照误差反向传播训练的多层前馈网络,其基本思想是梯度下降法,即利用梯度搜索技术,使网络的实际输出值和期望输出值的误差或交叉熵最小。BP神经网络将人工神经网络的信息传输过程分为前向传输和反向传输两个部分。其中信息的前向传输是将输入样本信息与各层神经元的权重做相应运算后输出,该输出实质为预测或分类结果。而信息的反向传输过程是对神经网络中权重的训练过程。该过程的传播信息是前向输出结果与样本标签的误差,并通过误差的梯度下降法来调整神经网络的权重值。通过一定量的样本训练,使神经网络权重收敛,从而使神经网络建立的模型逼近真实的分割映射模型。
将BP神经网络应用于遥感图像目标分割的研究包括:文献[40]在BP神经网络的基础上引入Levenberg-Marquardt迭代算法,建立了LMBP(Levenberg-Marquardt Back Propagation)的土壤地表粗糙度的定量反演模型。文献[41]为预测河流中总氮和总磷含量,通过BP神经网络建立了遥感图像的特征空间到预测结果的反演模型。文献[42]和文献[43]采用BP神经网络和RBF(Radial Basis Function)对土地利用分类和植被冠层氮素高光谱进行研究。文献[44]利用人工神经网络模型进行无人机高光谱遥感反演大豆叶面积指数。文献[45]采用基于遥感数据的人工神经网络模型估算区域蒸散量和生物量的生产。文献[46]利用人工神经网络结合社会经济分析、遥感和GIS数据进行滑坡危险性制图。
图像的语义分割就是对每个像素点进行分类。然而在特征空间中,建立一个合适的分类超平面并非易事。为此支持向量机(Support Vector Machine,SVM) [47-49] 被提出。SVM的核心思想是将低维的特征空间映射到更高的维度空间建立分类超平面。为了找到最佳的分类超平面,首先通过最近的分类点找到超平面的约束条件,再通过拉格朗日算子和KKT(Karush-Kuhn-Tucker)条件求解凸优化最优值。
将SVM应用到遥感图像目标分割的研究主要包括:文献[50]采用最小二乘孪生支持向量机,针对遥感图像中的小麦蚜虫进行监测。文献[51]通过最小二乘支持向量机完成了多光谱高分辨率遥感图像的地物分类识别。文献[52]结合植被指数和纹理特征,提出一种改进的支持向量机用于遥感图像的地貌特征分类。文献[53]集合最大信息熵,提出一种偏支持向量机和单类支持向量机相结合的算法,用于遥感图像分类。文献[54]为提高在合成孔径雷达图像中土地覆盖分类的精度,结合光学遥感数据构建了新的SVM算法,达到了预期目标。文献[55]对遥感图像进行了基于SVM和BP神经网络集成的作物信息提取研究。文献[56]采用主成分分析法和支持向量机,在遥感图像数据集上完成了地质制图。
随机森林遥感图像分割方法是在多棵决策树的基础上建立的分类器。各个决策树通过选取的特征对采样的数据集进行分类,最后通过投票机制综合各个决策树的分类结果 [57] 。
采用随机森林方法实现遥感图像目标分割的研究包括:文献[58]针对遥感图像中干旱区域的分割问题,对提取的特征采用随机森林算法建立了语义分割模型。文献[59]针对土壤中有机质的空间分布状况采用随机森林算法对遥感图像建立了分割模型。文献[60]针对遥感图像训练样本难以获取的问题,提出一种适用于小样本分类的随机森林算法。文献[61]为避免分类统计问题,对随机森林算法进行改进,并应用于遥感图像目标分类中。文献[62]通过随机森林模型对遥感图像表层土壤的碳储量进行评估。文献[63]提出一种新的随机森林算法,并将其应用于红树林遥感图像分类。文献[64]使用随机森林算法、遥感和涡度相关数据进行大陆空间尺度上的总初级生产力不确定性分析。文献[65]使用随机森林和纹理分析的方法进行无人机遥感城市植被制图。
图像分割就是将被分割图像中目标涵盖的所有像素点从背景中区分出来。传统的方法是通过手动提取图像特征,并根据一定的算法实现所有像素点的聚类或者分类。然而在具体的算法实现过程中,能表征同一类目标的特征往往是多个特征的强非线性组合。传统方法首先需要找到合适的有效特征空间,并在此基础上找出特征空间代数组合与分割目标的映射关系。因此,手动提取目标的特征十分困难。
近年来,以深度学习为代表的人工智能席卷全球,其在数字图像处理方面表现出来的优越性无可比拟。2006年Hinton和学生在 Science 上发表论文 Reducing the Dimensionality of Data with Neural Networks [66] ,引入自动编码器,2011年微软公司将深度学习用于人脸识别获得极大成功,2012年Hinton课题组首次参加ImageNet图像识别比赛,通过AlexNet大比分超越SVM获得冠军 [67] ,从此引爆深度学习为代表的人工智能时代 [68 , 69] ,深度学习的研究成果已广泛应用于图像处理 [70 , 71] 、计算机视觉 [72-76] 、大数据挖掘 [77-80] 等众多领域,为遥感图像分割研究引领了方向。
在图像分割领域,全卷积神经网络(Full Convolutional Network,FCN) [81] 是最重要的深度学习图像分割方法之一。2015年美国加州大学伯克利分校的Evan Shelhamer、Jonathan Long和Trevor Darrell在 IEEE Conference on Computer Visionand Pattern Recognition (CVPR)发表论文 Fully Convolutional Networks for Semantic Segmentation [82] ,成功使用深度学习框架完成了图像的语义分割。该论文被评为2015年CVPR的最佳论文,并被认为是全卷积神经网络图像语义分割的开山之作,并于2017年4月由 IEEE Transactions on Pattern Analysis and Machine Intelligence 正式出版 [83] 。
FCN的实质是对图像进行语义分割,即针对每一个像素实现分类,因此其本质仍然是深度学习领域的分类问题。深度学习分类器的最后几层通常是通过全连接层将图像的二维信息压缩成一维信息,最终输出一组分类概率值。然而,图像语义分割需要在图像的二维平面上对每一个像素点进行分类,而全连接层丢失了图像的空间信息。因此,FCN将最后的几个全连接层改造成输出为1×1× N 的卷积层,从而保留了空间信息,构成全卷积神经网络。其中,1×1表示输出特征量的维度, N 表示通道数量(特征数量)。FCN的第二个重要特征是通过反卷积实现上采样 [84 , 85] 并将特征映射到像素的分类上。此外,FCN还采用SkipLayer技术将反卷积层的结果与前端池化层的输出相融合,使分割结果更加准确。
研究人员在各自领域积极开展了FCN的应用和改进工作。文献[86]将FCN应用于天际线的检测,其具体结构是将VGG(Visual Geometry Group)的分割结果改造成为全卷积神经网络,并在测试数据集上取得了较好的分割效果。文献[87]运用FCN实现图像的场景分割,摒弃了FCN的1×1× N 结构,而是采用编码-解码(Encoder-Decoder)结构,即前端卷积和池化操作一定次数后,在后端直接实现对应次数的反卷积上采样。前端的卷积和池化操作相当于对图像特征进行编码(Encoder),而后端的反卷积操作相当于对特征进行解码还原(Decoder)。文献[88]在FCN的基础上增加了一个额外的分类网络,并将FCN中全卷积层的输出与该分类网络叠加用于在全局图像中验证局部图像的特征,取得了较好的分割效果。文献[89]提出一种有向非循环图与循环神经网络(Directed Acyclic Graph-Recurrent Neural Network)相结合的全卷积神经网络,用于图像的场景分割。
目前,将深度神经网络应用于遥感图像目标分割的研究包括:文献[90]将FCN应用于“高分三号”极化雷达图像和H-A-α极化分解,其对水域、植被和建筑物的分类识别精度比SVM具有显著优势。文献[91]提出一种singlepatch-based卷积神经网络结构,从高分辨率遥感图像中提取道路和建筑物的特征,并通过数据集训练后,对遥感图像的道路和建筑物分割取得了较好的分割精度。文献[92]将FCN应用于遥感图像中近海岸线的舰船检测,在其网络结构中,卷积层被分为浅卷积层和深卷积层,并通过浅卷积层初步实现目标检测,融合深卷积层提取的特征结合FCN实现近海岸线舰船的检测与分割。文献[93]针对高光谱遥感图像的分割问题,提出基于FCN的一种深度多尺度空间-频谱特征提取方法,实现了高光谱遥感图像中目标特征的提取和分割。