高分遥感水土保持应用研究最新章节_水利部水土保持监测中心著

2.6 精度评价方案设计

2.6.1 评价目的

为评价高分遥感水土保持监测评价指标提取技术的分类效果和专题数据的质量，对提取技术的直接分类成果和经过后处理的最终专题数据进行精度评价，验证专题数据的精度、分析误差原因，评估和改善高分遥感水土保持监测与评价指标提取技术方法和过程，告知用户专题产品的可信度。

2.6.2 评价内容与指标

1.精度评价内容

精度评价内容包括土地利用类型、植被覆盖度等级、水土保持治理措施类型、生产建设项目水土保持监测与评价指标等，其中土地利用类型采用决策树的分层提取策略，因此需要在每个提取类别之后都要进行质量控制，尽量保证分类过程准确。

2.精度评价指标

精度评价指标包括属性精度和几何精度，其中几何精度包括了面积精度和形状精度。属性精度评价一般采用混淆矩阵或者单变量统计分析的方法进行评价，面积精度和形状精度依据现有技术条件仅做定性评估。精度评价内容、指标与评价方法对应见表2.8。

表2.8 精度评价内容、指标与评价方法对应表

续表

2.6.3 样本数量测算

在遥感分类图中，对于单个地物类别精度进行评价时，选取多少个实地验证样本是需要考虑的重要因素。精度评价中样本数量的估算方法主要有二项式分布、二项式正态分布近似或多项式分布等。其中多项式分布主要用于估算土地利用类型中多个类别精度评价的样本容量。

2.6.3.1 基于二项式概率理论的样本容量

根据二项式概率理论计算需要的样本容量 N ， N 可通过式（2.1）计算：

其中， p 是整幅图的期望百分比精度， q =100- p ， E 为允许误差，当 Z =2时表示1.96的标准正态误差，95%的双侧置信度。对于一个期望精度为85%，而允许误差为5%的样本，其可信结果需要的点数是：

注意：容许误差为5%时，要求样本数量不少于204个。

如果该幅图的期望精度为85%，容许误差为10%，则该图的样本容量为51：

因此期望精度越低，允许误差越大，则用来估算分类精度所需的实地验证样本数量就越少。

2.6.3.2 基于多项式分布的样本容量

专题图通常包含多种地物类型（如：土地利用类型专题图包括耕地、林地、草地等），而不只是两种（如植被和非植被）。因此一些学者建议用多项式分布方程确定用于分类精度评价的样本容量（ N ）：

式中 Π _i —— k 个类型中最接近50%的第 i 类的总体比例；

b _i ——相应于该类的期望精度（如误差为5%）；

B ——自由度为1且服从 χ ² 分布的（ α / k ）×百分位数；

k ——总类数。

然而，大多数情况下不可能获取过多随机样本。所以，必须权衡理论上需要获取的样本数量和实际能够获得的样本数之间的关系。一些学者提出了一种基于最小样本数的规则，即每个土地利用类型误差矩阵中至少收集50个样本。假如每个区域特别大或者包含的土地利用类型比较多（如：大于10种），那么每类所需要的最小样本数就增加到75或100个，还应依据每类在研究目标中的重要性或者每类的固有变化调整样本容量。变化较小的类别选择的样本可以少一点，如水体和林地。而变化较大的类别就增加样本容量，如耕地。目的是为了获得有代表性的无偏样本，用于建立误差矩阵。

2.6.3.3 研究样本容量计算

单类型样本容量适合按照基于二项式概率理论计算，如土地利用的自动分类结果，水土保持治理措施的梯田、淤地坝、水土保持林、水土保持草和涝池提取结果，以及生产建设项目发现的提取结果。如果提取结果的期望精度为85%，容许误差为10%，则提取结果精度评价的样本容量为51，如果期望精度为85%，容许误差为 5%，则样本容量为204，因此根据区域大小及对提取结果容许误差的要求，选择51～204之间的样本数进行精度评价，如果区域较小或在区域内的该类型地物数量较少时可考虑小于51的样本数量。

土地利用类型提取结果的样本容量适合应用多项式分布方程计算。土地利用类型为8个一级类，各幅图提取结果中某类别所占比例不确定，因此假设为不知道任何一个类别在土地利用类型中的面积比例，期望精度为 85%，容许误差为 5%，计算得样本容量为478个。

典型生产建设项目由于面积比较小，占地类型提取图斑数也比较少，可采用全样本方法进行精度评价。

2.6.4 采样设计

在精度评价过程中，用户不可能对分类结果中的每个象元或矢量图斑进行实地调查。因此，需要事先估算出总体样本容量（ N ）和每一类（层）所需的样本数量并确定样本的实际地理位置，以便于实地调查和收集地面验证信息。样本位置的选取必须是随机无偏的。任何偏差都会导致误差矩阵的统计分析高于或低于提取结果实际精度。因此需要选择一个合适的采样方法。常用的采样方法有简单随机采样、系统采样、分层随机采样和聚类采样四种。通过对四种采样方法的对比选择适合本项目的最优采样方法。

2.6.4.1 简单随机采样

如果样本容量足够大，那么仅采用简单的随机样本就可以恰当地评价出总体特征参数。优点在于，样本间的选取是互不影响的，能满足大多数统计学所要求的随机分布假设。不足的是，除非样本容量特别大，否则简单随机取样可能漏掉一些面积较小但非常重要的类别。随机样本也可能位于不允许进入或无法到达的地方。因此，某些随机样本点的聚类可能会导致忽略总体的一些重要的空间特性。

2.6.4.2 系统采样

为避免随机采样在区域覆盖方面的不足，可以连续有序的方式进行系统采样。系统采样通常选取某个点的坐标作为起始点坐标。不足的是，如此收集的数据具有周期性，那么具有规律间隔的随机采样点可能多次落入相同的地物，从而使总体评价存在偏差。由于系统采样可能过高地估计总体参数，所以使用时需考虑这些因素。

2.6.4.3 分层随机采样

专题信息提取完成后，每层（每个地面覆盖类型）都需要选取量最少的样本。根据遥感解译结果，将每一层组成特定的类，在每层（每个地面覆盖类型）中随机选择样本。分层随机采样的优势在于：不管每个层占整个区域的比例多少，都将为其分配样本进行精度评价。如果不进行分层随机采样，对于区域内占比例小的类别很难找到足够的样本。分层随机采样的不足在于它需要等专题图提取完成后才能将所有样本分配到不同的层。

2.6.4.4 聚类采样

有时实地调查每个样本点的数据是困难的，因此有学者建议在单个随机样本点处尽可能收集多个样本。不足的是，聚类中的像元之间是相互关联的。所以有学者指出，聚类中应该包含不少于10个，一般不要超过25个像元，因为超过这个尺寸以后，每个像元不会再增加相应的有用信息。结合随机与分层采样，可以提供统计有效性和实用性的最佳平衡。此种采样方法可以在信息提取初期通过实地随机采样收集一些评价数据，分类完成后再进行分层随机采样，这样可以确保每一类中有足够的样本，且最小化数据的空间自相关性。

2.6.4.5 采样方法选择

通过对上述四种采样方法的分析，本书样本采样方式主要为采用简单随机采样和分层随机采样。单类型对象提取结果选择简单的随机采样方法；多类型对象提取结果选择分层随机采样方法，以确保每一类都有足够的样本。

1.单类型对象提取结果采样方法

土地利用类型的每一层提取结果、水土保持治理措施单类型提取结果、生产建设项目发现提取结果都为单类型对象，采用单类型对象提取结果采样方法。

2.多类型对象提取结果样本采样方法

全覆盖的土地利用类型和典型生产建设项目占地类型提取结果中都包含多个对象类型，采用分层随机采样方法。

2.6.5 评价方法

精度评价主要采用常规的混淆矩阵和单变量统计法两种方法。混淆矩阵方法用于多类型提取结果进行精度评价，本项目中主要用于评价土地利用类型提取结果和典型生产建设项目的占地类型提取结果。

2.6.5.1 混淆矩阵法

混淆矩阵是通过将每个地表真实像元的位置和类型与分类图中的相应位置和分类相比较，主要用于比较分类结果和地表真实信息，可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵中包含总体分类精度、制图精度、漏分误差、用户精度、错分误差、Kappa系数6个精度评价指标，其中制图精度和漏分误差是一对，用户精度和错分误差是一对。

设 N 为分类精度评价中的样本总数， k 为总的分类类别数目， N _ij 为分类时被分为 i 类，而其真实参考类别为 j 的样本数目，当 j = i 时，样本的分类类别与真实参考类别一直为正确分类样本数目。在分类时被分为 i 类的样本数目为；样本类别为 i 的真实参考样本数目为，则混淆矩阵的各精度评价指标具体计算方法如下。

1.总体分类精度

总体分类精度为，样本类别与真实参考类别一致的样本数量与样本总数的比值。计算公式如下：

式中 N ——样本总数；

k ——总的分类类别数目；

i ——提取对象的第 i 类；

N _ii ——第 i 类样本中，样本分类类别与真实参考类别一致的样本数量。

如样本中，样本类别与真实参考类别一致的样本数量为448，样本总数为500，则总体分类精度为 OA =448/500=87%。

2.制图精度

i 类样本中，样本的类别与真实参考类别一致的样本数与真实参考类别为 i 类的样本数的比值，计算公式如下：

如林地样本中，与真实参考类别一致的样本数为89，而真实参考类别为林地的样本总数为92，则林地的制图精度为89/92=96.74%。

3.漏分误差

漏分对象指对真实值属于 i 地类，但在分类提取是并未被分为该类的样本数。漏分误差为漏分对象数与该类的真实参考样本数的比值，计算公式如下：

如样本中，真实参考类别为林地的样本数为92个，而林地样本与真实参考类别一致的样本只有89个，则漏分误差为（92-89）/92=3.3%。

4.用户精度

i 类提取对象的用户精度指 i 样本中，与真实参考类别一致的样本数与该类样本总数的比值，计算公式如下：

如林地样本总数为100个，与真实参考类别一致的样本数为89，则林地的用户精度为89/100=89%。

5.错分误差

提取的 i 类的结果中，有一部分样本实际不属于 i 类，属于错分样本，错分误差即为错分样本与该类样本总数的比值。计算公式如下：

如抽取林地样本100个，其中11个被错分为其他类别，则林地的错分误差为11/100=11%。

6. Kappa系数

它是通过把样本总数（ N ）乘以样本类别与真实参考类别一致的样本数，减去各类样本总数和样本真实参考类别为该类之积之后，除以样本总数平方减去各类样本总数和样本真实参考类别为该类之积的结果，计算公式如下：

式中 ——Kappa系数；

k ——分类类别总数；

N _ii ——样本分类类别与真实参考类别一致的样本数量；

N _i+ ——分类时被分为 i 类的样本数目；

N _+i ——样本类别为 i 的真实参考样本数目；

N ——像元总数。

2.6.5.2 单变量统计法

应用于单类型精度评价的一种方法，与混淆矩阵中某些评价指标类似，计算样本中正确样本数占样本总数的比例，作为该对象的提取精度，计算公式如下：

单变量统计法在项目中应用于土地利用类型的单类型自动分类结果、植被覆盖度等级、水土保持治理措施的各类型提取结果以及生产建设项目发现的提取结果的发现精度、漏提率和正确率三个指标的评价计算，其中发现精度和漏提率是一对。

1.发现精度计算公式

发现精度是评价样本类别与算法提取类别一致的样本数量占样本总数的比例，其中样本是在参考真实范围内选取的，用于评价区域内真值被算法提取结果发现的情况，与混淆矩阵评价方法中的制图精度类似，主要区别在于样本的选择区域。样本选择分为两种情况：第一种是区域内有提取目标的全部真值，则基于区域内的真值随机采样，选取样本点；第二种是区域内没有全部真值，则在区域内随机撒点，但随机点处为目标类别时，采用专家知识法勾绘出该处的目标对象，同时该随机点即作为样本点，直到样本点满足该类型精度评价样本数量要求为止。

发现精度主要用于水土保持治理措施中梯田提取算法的精度评价，具体计算公式如下：

其中被发现样本指算法提取类别与样本类别一致的样本。

2.漏提率计算公式

漏提率与发现精度是一对，用于分析真值样本中未被发现样本数量占样本总数的比例，样本的选取方式与发现精度的样本选择一致。主要用于水土保持治理措施中梯田提取算法和生产建设项目发现的漏提率，计算公式如下：

其中漏提样本指算法提取类别与样本类别不一致的样本。

3.正确率计算公式

正确率是分析样本类型与真实参考类别一致的样本数量占样本总数的比例，与混淆矩阵中的用户精度相似，用于土地利用类型的单类型自动分类结果、水土保持治理措施的各类型提取结果以及生产建设项目发现的提取结果的精度评价。计算公式如下：

其中属性正确样本指样本类型与真实参考类别一致的样本。

2.6.5.3 地表真实值获取方法

混淆矩阵法中地表真实数据的获取方法包括：已有成果数据收集、实地调查法、专家知识法、更高分辨率遥感数据提取法。具体如下：

（1）已有成果数据收集。到相关部门收集精度评价区域同时期已有地表分类数据作为精度评价的真实数据，主要用于对算法自动分类结果的精度评价，分析算法的可用性。

（2）实地调查法。通过实地调查的方式获取样本点处的地表真实值，作为精度评价的真值。

（3）专家知识法。以具有专家知识的作业人员通过人机交互提取的结果作为精度评价参考的真值。

（4）更高分辨率遥感数据提取法。采用更高分辨率影像的提取结果作为真值。

2.6.6 评价实施方案

根据土地利用类型、植被覆盖度等级、水土保持治理措施类型、生产建设项目水土保持监测与评价指标，建立了不同的精度评价方案。

1.土地利用类型精度评价方案

根据土地利用类型分层提取的分类策略，需要在各类型（各层）提取完成后进行精度评价，在满足精度要求的情况下再进行下一层的提取，否则修正分割分类算法或者参数重新分类，或人工修正分类结果，直至分类精度满足要求之后再进入下一地类的自动提取过程，即计算机自动提取质量控制。当各层都提取完成后再进行整体精度评价。

（1）计算机自动分类结果质量控制。计算机自动分类结果质量控制指在土地利用类型提取某一类之后，对其正确率进行评价，在5%的精度误差容忍范围内，满足设计要求之后再进行下一类型的提取，避免误差的积累。单类型的精度控制方法选择单变量统计法。

在进行精度实验的基础上确定计算机自动分类结果质量控制标准。在计算机自动提取各土地利用类型过程中，对某土地利用类型提取结果进行多次随机采样，计算得出多次采样精度均值。在同时充分考虑各类型提取难易程度及其对水土保持的重要程度的基础上，提出各土地利用类型计算机自动提取质量控制标准，见表2.9。

表2.9 各土地利用类型计算机自动提取质量控制标准

在某类型提取结果中应用已有的实地调查点及简单的随机采样方法相结合的方法，采集满足样本容量设计的样本数量，应用单变量统计法计算该类型提取结果的正确率。

样本真值获取方法分两种：一种是实地调查；另一种是专家知识法。

（2）计算机自动分类结果精度评价。应用分层随机采样的方法，获取每个类型的样本数量，应用混淆矩阵法进行精度评价。

（3）后处理结果精度评价。应用分层随机采样的方法，获取每个类型的样本数量，应用混淆矩阵法进行精度评价。各土地利用类型成果精度要求大于等于85%。

样本属性真值的获取过程中，对该样本的图斑形状和面积信息进行核实，用于评估提取结果的形状精度和面积精度。

2.植被覆盖度等级精度评价方案

植被覆盖度等级的精度评价采用单变量统计法，样本采用已有实地测量点和简单的随机采样相结合的方法，采集满足样本容量设计的精度评价样本，计算植被覆盖度等级的正确率。

3.水土保持治理措施类型精度评价方案

项目提取的水土保持治理措施包括梯田、淤地坝、涝池、水土保持造林和水土保持种草，其中梯田和淤地坝是水土保持措施提取的主要对象，在关键技术研究及专题产品生产的过程中都需要精度评价这一环节。

其中梯田评价指标包括发现精度、漏提率和正确率，淤地坝和涝池精度评价指标包括正确率和漏提率，根据不同指标的样本选择方式，选择满足样本容量的样本数量，应用单变量统计法进行精度指标计算。水土保持林和水土保持草的精度评价采用简单随机采样方法获取样本，应用单变量统计法进行正确率计算。其他难以通过高分遥感影像提取的措施应用实地调查方法获得真值，不需要再做精度评价。

4.生产建设项目水土保持监测与评价指标精度评价方案

生产建设项目涉及的精度评价的内容主要为典型生产建设项目水土保持效果评价指标的精度和区域内生产建设项目的数量与分布精度。

（1）典型生产建设项目水土保持效果评价指标精度评价。典型生产建设项目的区域比较小，图斑数量相对较少，因此选择全样本进行精度评价，由于典型生产建设项目不同时期的占地类型为多种类型，因此选择混淆矩阵方法对全样本进行精度评价。

样本点的真值通过实地验证或通过更高空间分辨率的遥感影像数据提取。

（2）区域内生产建设项目的数量与分布精度评价。生产建设项目发现提取结果精度评价指标包括正确率和漏提率，根据不同指标相应的样本选择方式，选择满足样本容量的样本数量，应用单变量统计法进行精度指标计算。