聚类分析是一种无监督学习方法,广泛应用于图像识别、文档分类等领域,常见的聚类分析方法有K-means、Mean Shift、DBSCAN等。其中,K-means方法简单、易于实现,但是局限于聚类数目和聚类中心的选择;MeanShift与K-means一样,是一种基于聚类中心的算法,但是不需要预先指定聚类中心的数目,其聚类中心由给定区域的样本均值来确定;DBSCAN是一种基于密度的聚类分析方法,与K-means、Mean Shift两种方法相比,DBSCAN能够较好地处理非球状结构的数据,可以发现任意形状的聚类,但是DBSCAN方法受其邻域半径和阈值两个预置参数的约束,对预置参数比较敏感,时间开销较大。2014年,Alex Rodriguez等人提出密度峰值聚类算法,该算法基于两个假设:①聚类中心总是被其他低密度点包围;②聚类中心与其他较高密度点间的距离相对较远。基于密度峰值的聚类算法不需要事先指定聚类的类别数,能够聚类任意形状的类簇。
密度峰值聚类算法有两个重要的变量:一是衡量数据点局部密度的变量 ,二是描述数据点相对距离的变量 。数据样本表示为:
式中, , i =1, 2, …, n ; m 表示数据样本的维数; n 表示样本数。密度峰值聚类算法有高斯核和截断核两种计算局部密度 的方法。
(1)截断核法。该方法的表达式如下:
(2.4)
式中, 表示两个数据点之间的欧氏距离, ; d c 表示数据点的截断距离, d c>0。函数 χ ( x )表示为:
(2.5)
(2)高斯核法。该方法的表达式如下:
(2.6)
高斯核法和截断核法的不同之处在于:截断核法表示的局部密度是指在聚类中心邻域内样本点的个数;高斯核法表示的局部密度是指聚类中心邻域内样本点到聚类中心的高斯距离之和。当数据样本量较大时,截断核法比高斯核法更具优势;相反,在样本数量不大时,用高斯核法表示的局部密度效果较为明显。
数据点 x i 的相对距离 定义为:
(2.7)
当数据点 的局部密度最大时, 表示数据集中与数据点 的最大距离;当数据点 的局部密度不是最大时, 表示在所有局部密度大于 的数据点中,与 距离最近的数据点之间的距离。
每个数据点的局部密度 和相对距离 组成一对二维坐标( , ),在二维平面中将其表示出来。由于聚类中心具有较大的局部密度,并且距离其他密度较高点相对较远,因此确定局部密度 和相对距离 同时较大的点为聚类中心。
空战过程中,敌我对峙的态势可以划分为敌方优势、我方优势、双方均势、双方劣势 4 类,这 4 类典型的态势在数据特征方面具有明显的差异。假设在多维空间内,这 4 类态势类型是聚集的,并且各类态势类型与其他态势类型之间具有较大差异。因此,本节通过密度峰值聚类算法构建空战态势分类模型。
具体的密度峰值态势分类步骤如下:
(1)数据集的标准化处理,采用 2.2.2 节中的最小最大标准化法处理样本数据。
(2)计算各个数据样本点之间的欧氏距离 。由于飞行训练系统采集的样本数据量较大,因此主要采用截断核法确定局部密度 ,同时确定各个样本点的相对距离 。
(3)密度峰值聚类算法在确定聚类中心时的主要依据是局部密度和相对距离的二维图,以局部密度和相对距离同时较大的样本点作为聚类中心。为了避免确定聚类中心时人为因素的影响,本书在原来决策图确定聚类中心的基础上提出了一种新的聚类中心确定方法。在密度峰值聚类算法中,局部密度和相对距离同时作用影响聚类中心点的选择,设 γ i = ρ i δ i , γ i 值更大的点则有更大的可能是聚类中心。对 γ i 进行排序可知,一旦聚类中心的数目确定,聚类算法的阈值 γ i * 即可确定,则聚类中心即可确定。