基于试探法的聚类设计采用假设某种分类方案,确定一种聚类准则,计算 J 值,找到 J 值最小的那一种分类方案,则认为该种方法为最优分类。基于试探的未知类别聚类算法,包括最临近规则的试探法和最大最小距离算法。
假设前 i 个样品已经被分到 k 个类中。则第 i +1个样品应该归入哪一个类中?假设归入 ω a 类,要使 J 最小,则应满足第 i +1个样品到 ω a 类的距离小于给定的阈值,若大于给定的阈值T,则应为其建立一个新的类 ω k +1。在未将所有的样品分类前,类数是不能确定的。
这种算法与第一个中心的选取、阈值T的大小、样品排列次序及样品分布的几何特性有关。这种方法运算简单,当有关于模式几何分布的先验知识作指导给出阈值T及初始点时,则能较快地获得合理的聚类结果。
最临近规则的试探法受到阈值T的影响很大。阈值的选取是聚类成败的关键之一。最大最小距离算法充分利用样品内部特性,计算出所有样品间的最大距离作为归类阈值的参考,改善了分类的准确性。例如,采用某样品到某一个聚类中心的距离小于最大距离的一半,则归入该类,否则建立新的聚类中心。
层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为合并、分裂两种方案。
合并的层次聚类是一种自底向上的策略,首先将每个对象作为一个类,然后根据类间距离的不同,合并距离小于阈值的类,合并一些相似的样品,直到终结条件被满足,合并算法会在每一步减小聚类中心数量,聚类产生的结果来自于前一步的两个聚类的合并;绝大多数层次聚类方法属于这一类,它们只是在相似度的定义上有所不同。
分裂的层次聚类与合并的层次聚类相反,采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的样品簇,直到达到了某个终止条件。分裂算法与合并算法的原理相反,在每一步增加聚类中心数量,每一步聚类产生的结果,都是将前一步的一个聚类中心分裂成两个得到的。