合成孔径雷达图像目标识别最新章节_刘明著

3.3 基于LPP-Gamma算法的SAR图像目标识别

分类识别过程存在的一个主要问题是原始高维数据的特征维数过高，为此，可将原始高维数据映射到低维空间。定义 W 为降维矩阵，可以得到 R _i = Wx _i ，于是式（3-1）可以写为

式中， W 是一个 D×d （ D ≫ d ）维的降维矩阵， D 为原始数据 y _i 的特征维数， d 为降维后数据的特征维数； x _i ∈ℜ ^d 表示对 y _i 进行降维后的数据。由式（3-2）可见，原始数据 y _i 由两部分构成，分别是对识别有用的成分 x _i 和噪声分量 ε _i 。特征提取的目的是尽可能保留对识别有用的部分 x _i ，同时减小噪声分量 ε _i 对算法性能的影响。

从统计的角度，特征提取的目标函数可以表示为

式中， Y 表示原始的训练样本集， Y = { y ₁ ， y ₂ ，…， y _N } ∈ℜ ^D×N ； X 表示对原始数据 Y 降维以后得到的训练样本集， X = { x ₁ ， x ₂ ，…， x _N } ∈ℜ ^d×N 。

由于边缘分布 p （ Y ）不会对目标函数产生影响，根据贝叶斯公式，可将目标函数转化为

3.3.1 基于Gamma分布构建似然函数

考虑SAR图像中相干斑的统计特性，可以更精确地捕获和描述SAR图像的本质特征。研究表明，采用Gamma分布可以对相干斑的统计分布进行准确建模。

对于SAR图像中的任一个像素，其相干斑 n 服从Gamma概率密度函数（Probability Density Function，PDF）

式中， l 为图像的视数；Γ（ l ）为Gamma函数。

对于一个 D 维样本 y _i = （ y _i ₁ ， y _i ₂ ，…， y _iD ） ^T ，其中的相干斑分量为 ε _i = （ n _i ₁ ， n _i ₂ ，…， n _iD ） ^T 。根据式（3-1）可得 y _is =r _is n _is ，其中， y _is 表示 y _i 的第 s 个元素， n _is 表示相干斑分量 ε _i 的第 s 个元素（ s= 1，2，…， D ）。令 R _i = Wx _i = （ r _i ₁ ， r _i ₂ ，…， r _iD ） ^T ，可以得到 p （ y _is | x _i ）的表达式

则 p （ y _i | x _i ）的表达式为

3.3.2 基于局部保持特性构建先验函数

通过构建 p （ X ）可实现对识别非常重要的数据局部结构的保持，使在高维空间距离近的样本在低维空间仍然距离近。

1.先验函数的构建

为实现高识别率的SAR图像目标型号识别，构建如下 p （ X ）：

式中， L 为拉普拉斯矩阵， L = H-S ； S _ij 构成相似度矩阵 S ，它是一个对称矩阵，反映了任意两个样本的相似程度； H 是一个对角矩阵，其元素 H _ii 为Σ _j S _ij 或Σ _i S _ij 。相似度矩阵 S 中的元素可根据下式进行计算：

式中， c 为常数。

数据的局部结构对于SAR图像目标的型号识别非常重要，因此希望特征提取算法能够保持特征提取前后数据的局部结构。换句话说，我们总是希望在高维空间距离近的样本在低维空间仍然距离近。对于任意两个在高维空间距离近的样本 y _i 和 y _j ，由式（3-8）可见，降维后对应样本的距离越近，则 p （ X ）越大，说明数据的局部结构保持得越好。本章通过构建 p （ X ）来保持数据的局部结构，实现了和LPP算法同样的目的。

观察式（3-9），可以发现，对于任意两个样本，它们在高维空间的距离越近，相似度矩阵 S 中的对应元素就越大，则（ x _i -x _j ） ^T （ x _i -x _j ）的值应进一步减小，以增大 p （ X ），而（ x _i -x _j ） ^T （ x _i -x _j ）的值减小意味着降维后的样本之间的距离更近，这就实现了数据局部结构的保持。

从上述讨论可知，最大化 p （ X ）可以最大限度地实现数据局部结构的保持，也就可以尽可能地实现SAR图像的精确描述。可是，由于 p （ X ）和 p （ Y | X ）并不是相互独立的，最大化目标函数并不能保证两者同时达到最大，因此所述算法是综合考虑了上述两个因素来进行特征提取的，是一个综合的权衡或平衡过程。

2.修正的相似度矩阵

如式（3-9）所示，相似度矩阵 S 将同一个型号目标的所有样本都联系起来，而不同型号目标的样本之间的权值都设置为0。这种构造不同于针对人脸识别的算法中的相似度矩阵。原始的相似度矩阵构造为

式中， N _k （ y _i ）为样本 y _i 的 k 个近邻点； N _k （ y _j ）为样本 y _j 的 k 个近邻点。

式（3-10）的构造方法是，对于任意两个样本 y _i 和 y _j ，如果 y _i 属于 y _j 的 k 个近邻点之一，或者 y _j 属于 y _i 的 k 个近邻点之一，则在两者之间赋予一个对应于式（3-10）的权值。可是，这样的权值构造方法对于SAR图像目标的型号识别并不合适。图3-2给出了7种型号目标在不同方位角下的SAR图像，可以看出，目标在SAR图像中仅仅是一个近似矩形的亮斑，细节不能明显地显示出来。相近角度下的不同型号目标的形态非常相近，同一个目标在不同方位角下的SAR图像之间的差异要大于不同目标在相同方位角下SAR图像之间的差异。如果根据式（3-10）构建相似度矩阵，则会在具有相近方位角的不同型号目标之间建立起联系，而具有较大差别方位角下的同型号目标之间的权值会被设置为0。可见，这样的构造会对识别产生不利的影响。

为进一步说明修正相似度矩阵的必要性和优越性，给出如图3-3所示的例子，以更直观地看出式（3-10）对于SAR图像目标的型号识别并不合适。为简单起见，这里选择 k =2（每个样本将和它的两个最近邻点连接）进行说明。图3-3给出了3类目标按式（3-10）构造相似度矩阵的示意图及其分析。这里，选择一些样本对（样本A和样本B、样本C和样本D、样本E和样本F、样本G和样本H）进行说明。在第一种情形下，不同样本之间的距离很近，但是它们分别属于不同的样本类别（样本A和样本B、样本C和样本D）；在第二种情形下，不同样本之间的距离很远，但是它们属于同一类目标（样本E和样本F、样本G和样本H）。

图3-2 7种型号目标在不同方位角下的SAR图像

图3-3 3类目标按式（3-10）构造相似度矩阵的示意图及其分析（ k= 2）

从图3-3（a）可以看到，样本A和样本B之间的距离很近，但它们属于不同的类别（样本A属于类别1，而样本B属于类别2）。由于它们之间的距离很近，样本A是样本B的两个近邻点中的一个，所以它们之间建立了联系，在两者之间会施加一个对应于式（3-10）的权值。而目标函数保证了在高维空间距离近的样本在低维空间的仍然距离近，根据式（3-10）构建相似度矩阵会使样本A和样本B在特征空间中彼此靠近，就可能产生误判。事实上，样本A和样本B是不应该被联系起来的[因此它们之间画了一个“×”，如图3-3（b）所示]，样本C和样本D的情况类似。而如果根据式（3-9）构建相似度矩阵，则由于它们（样本A和样本B、样本C和样本D）分别属于不同的类别，因此它们之间的权值会被设置为0，就不会产生对识别不利的影响。

对于SAR图像目标的型号识别，每个型号目标的训练样本数都比较多，若按式（3-10）构建相似度矩阵，则由于选择的近邻点个数 k 通常远远小于每个型号目标的训练样本数，必然会出现属于同一个型号目标的样本彼此之间的权值被设置为0的情况。比如，图3-3（a）中的样本E和样本F是属于同一个型号的目标，但它们之间的距离较远，样本E不属于样本F的两个近邻点之一，样本F也不属于样本E的两个近邻点之一，因此根据式（3-10）构建相似度矩阵时，就不会在它们之间建立联系，也就会造成有用信息的缺失。同样的情形也适用于样本G和样本H。在图3-3（b）中，它们（样本E和样本F、样本G和样本H）之间画了一条虚线，表示它们之间应该相互连接。虽然样本E和样本F、样本G和样本H之间的距离较远，但如果按照式（3-9）构建相似度矩阵，由于它们均属于同一类别目标（样本E和样本F都属于类别1，样本G和样本H都属于类别2），也能在它们之间建立联系，使有用信息得到有效保持，从而可以保证同一型号目标在特征空间中彼此靠近，有利于正确地识别。

综上所述，采用修正的相似度矩阵可以同时捕获数据的局部特征和全局特征。

3.3.3 参数估计

本小节介绍如何计算最大化目标函数的 W 和 X 。在本章所建立的模型中，由于降维矩阵 W 的维数非常高，如果直接进行优化求解，则运算量很大。为解决此问题，给出了一种分解算法，来减少降维矩阵 W 优化求解的运算量。

首先，将式（3-7）和式（3-8）代入式（3-4），并消去不影响结果的常数项，可以得到目标函数的对数似然函数

式（3-11）中包含 X 和 W 两个未知数，此处采用CD算法进行参数估计，即在每一步更新中，都采用伪牛顿法只优化其中一个参数，同时保持另一个参数不变。 J （ W ， X ）关于 X 和 W 的梯度公式分别为

式中，

1.降维矩阵的分解

式（3-13）中降维矩阵 W 的梯度的维数为 D×d ，而采用伪牛顿法进行参数估计时，要用到 W 的Hessian矩阵的逆矩阵的维数将达到 Dd×Dd ，这会导致直接优化 W 的运算量过大。为解决此问题，将 W 的优化过程分解为多个步骤来降低矩阵的维数，以减少运算量。

由式（3-2）可以得到 Y = WXε ，其中，噪声分量 ε = （ ε ₁ ， ε ₂ ，…， ε _N ）。可以看到，降维矩阵 W 的行只和 Y 的对应行有关，而和 Y 的其他行无关，因此可以将 W 的最优解 W ^* 分解为（ W ^* 的第 s 行）只和原始数据 Y 的第 s 行有关，和 Y 的其他行无关。换句话说，提取每个样本的第 s 个元素来优化 W _s ， W _s 是 W 第 s 行。

从式（3-11）可以看到，最后一项tr（ XLX ^T ）和 W 无关，因此在优化 W 时可以将其省略，对前两项进行变换，可以得到

式中，。

至此，就将 W 的优化问题拆分成了 D 个步骤来实现，每个子问题的目标函数 J ₀ _s （ W _s ， X ）关于 W _s 的梯度公式为

计算 J ₀ _s （ W _s ， X ）最大化时的 W _s ，就可以得到其最优解。分别对每一行进行同样的操作，经过 D 次操作后，就可以得到整个降维矩阵 W 的最优解。

通过上述分解算法，可以大大减少计算降维矩阵的运算量。这里给出采用分解算法和不采用分解算法计算降维矩阵的运算量的对比。采用拟牛顿法中的BFGS（Broyden-Fletcher-Goldfarb-Shanno）算法求解降维矩阵时，每次迭代的运算量是 O （ n ² ），其中， n 表示运算的规模。这里，降维矩阵 W 的维数是 D×d ，因此，如果不采用分解算法，则每计算一次 W 的运算量是 O [（ D×d ） ² ]。而如果采用上述分解算法，则可以将这个大规模的优化问题拆分成 D 个子问题，计算 W 变成了计算 D 次 W _s （ s= 1，2，…， D ），则每计算一次 W 对应的计算量是 D×O （ d ² ）。可以看到，采用前述分解算法可以大大减少计算降维矩阵的运算量。