使用监督学习算法训练模型时,需要事先知道正确答案(标签或目标变量),而在强化学习中,需要定义智能体动作的奖励函数。然而,无监督学习处理的是无标签的数据或结构未知的数据。使用无监督学习,我们无须知道结果变量或奖励函数便能够探索数据的规律,提取数据中有价值的信息。
聚类是一种分析数据、探索数据模式的方法,可以在不了解数据内部关系的前提下将数据分解为有意义的子群(簇)。在聚类分析过程中出现的每一个簇为一组样本,这些样本具有一定程度的相似性,但与其他簇中的样本差异较大。这就是为什么有时称聚类为无监督分类。聚类是一个挖掘数据结构性信息或数据间关系的方法。例如,营销人员根据客户的兴趣对客户进行聚类,发现具有特定兴趣的客户群,从而制定针对性的营销计划。
图1.6 聚类的工作原理
图1.6展示了如何使用聚类方法根据特征 x 1 和 x 2 的相似性将未标记的数据组织成三个组或簇(A、B和C,排序不重要)。
无监督学习的另一个分支是降维。我们通常使用的数据是高维数据,而且每次观测都会带来大量的测量数据,这对存储空间和机器学习算法的计算能力提出了挑战。无监督降维是特征预处理常用的方法,用于去除数据中的噪声,但可能会降低某些机器学习算法的预测性能。数据降维在保留数据大部分信息的前提下,将数据从高维子空间压缩到低维子空间。
降维也可用于数据可视化。例如,可以将高维特征数据投影到一维、二维或三维特征空间,然后通过散点图或直方图方式进行数据可视化。图1.7展示了一个降维的例子。在图1.7中,使用非线性降维方法将一个三维瑞士卷数据压缩到一个二维特征子空间。
图1.7 一个从三维降维到二维的例子