模式识别与智能计算—MATLAB技术实现（第3版）最新章节_杨淑莹著

1.5.1 聚类的设计

1.聚类的定义

Everttt提出一个聚合类是一些相似的实体集合，而且不同聚合类的实体是不相似的。在一个聚合类内的两个点间的距离小于在这个类内任一点和不在这个类内的另一任一点间的距离。聚合类可以被描述成在 n 维空间内存在较高密度点的连续区域和较低密度点的区域，而较低密度点的区域把其他较高密度点的区域分开。

在模式空间 S 若给定 N 个样品 X ₁ ， X ₂ ，…， X _N ，聚类的定义是：按照相互类似的程度找到相应的区域 R ₁ ， R ₂ ，…， R _M ，对任意 X _i （ i ＝1，2，…， N ）归入其中一类，而且不会同时属于两类，即：

R ₁ ∪ R ₂ ∪…∪ R _M ＝ R

R _i ∩ R _j ＝∅ （ i ≠ j ）

这里∪、∩分别为并集，交集。

选择聚类的方法应以一个理想的聚类概念为基础。然而，如果数据不满足由聚类技术所做的假设，则算法不是去发现真实的结构而是在数据上强加上某一种结构。

2.聚类准则

设有未知类别的 N 个样品，要把它们划分到 M 类中去，可以有多种优劣不同的聚类方法，怎样评价聚类的优劣，这就需要确定一种聚类准则。但客观地说，聚类的优劣是就某一种评价准则而言的，很难有对各种准则均呈优良表现的聚类方法。

聚类准则的确定，基本上有两种方法。一种是试探法，根据所分类的问题，试探性进行样品的划分，确定一种准则，并用它来判断样品分类是否合理。例如，以距离函数作为相似性的度量，用不断修改的阈值，来探究对此种准则的满足程度，当取得极小值时，就认为得到了最佳划分。另一种是群体智能方法，随着对生物学的深入研究，人们逐渐发现自然界中个体行为简单、能力非常有限，但当它们一起协同工作时，表现出并不是简单的个体能力的叠加，而是非常复杂的行为特征，群体智能优化算法在没有集中控制并且不提供全局模型的前提下，利用群体的优势，分布搜索，这种方法一般能够比传统的优化方法更快地发现复杂优化问题的最优解，为寻找复杂问题的最佳方案提供了新的思路和新方法。

下面给出一种简单而又广泛应用的准则，即误差平方和准则：

设有 N 个样品，分属于 ω ₁ ， ω ₂ ，…， ω _M 类，设有 N _i 个样品的 ω _i 类，其均值为

因为有若干种方法可将 N 个样品划分到 M 类中去，因此对应一种划分，可求得一个误差平方和 J ，要找到使 J 值最小的那种划分。定义误差平方和

经验表明，当各类样品均很密集，各类样品个数相差不大，而类间距离较大时，适合采用误差平方和准则，如图1‐6（a）所示。若各类样品数相差很大，类间距离较小时，就有可能将样品数多的类一分为二，而得到的 J 值却比大类保持完整时小，误以为得到了最优划分，实际上得到了错误的划分，如图1‐6（b）所示。

图1‐6 样品分布与误差平方和准则关系