机器学习教程(微课视频版)最新章节_张旭东著

2.7　非参数方法

目前在机器学习中，对概率模型表示和相应的学习模型表示上，参数方法占主流地位。在概率模型估计中，首先假设一种数学形式表示的概率（密度）函数，例如高斯分布、混合高斯分布等，通过样本估计表征该概率函数的参数。但这种预先假设的模型是否成立，在实际中可能无法保证。非参数方法（non-parametric method）没有预先假设，可处理任意概率分布。

对于离散随机变量，其概率估计相对简单，在样本充分多时，只需采用概率的频率解释进行估计往往可得到满意的结果。故本节只讨论连续随机变量的概率密度函数估计问题。

设有样本集，用于估计概率密度函数 p （ x ）。对于一个给定的 x ，在其取值区间内构造一个以 x 为质心的充分小的区间 R ，设其体积为 V ，则向量 x 落在区间的概率 P 为

设样本数 N 充分大，样本落在区间 R 内的数目为 K ，则概率 P 的另一种表示为 P ≈ K / N ，由式（2.7.1）得到

式（2.7.2）是非参数估计概率密度函数的基本公式，根据处理 V 和 K 的不同，分为两类方法，固定 V 的大小构成Parzen窗方法，固定 K 的大小构成 K 近邻方法。

1．Parzen窗方法

为了使式（2.7.2）中 x 变化时，都可以数出区间内样本数目 K ，最基本的方法是定义表示超立方体的窗函数 φ （ x ），其定义如下：

这里 M 是 x 的维数，对于大小固定的区间 R ，它的超立方体的边长为 h ，体积 V = h ^M ，由这些定义可见，在以 x 为中心的超立方体内的样本数可表示为

代入式（2.7.2）得Parzen窗概率密度函数估计为

式（2.7.3）定义的超立方体窗估计的概率密度函数是分段台阶函数，不连续，可使用光滑窗函数代替超立方体窗，光滑窗函数需要满足如下两个条件：

φ （ x ）≥0

高斯函数（此时表示窗函数而不是概率密度函数）是一个广泛使用的光滑窗，利用高斯窗函数，式（2.7.5）可重写为

对于给定的样本集和不同的概率密度函数类型，表示体积大小的参数 h 的选择很重要， h 太大则（ x ）的分辨力低，可能对真实概率密度函数的一些峰值产生模糊， h 太小，则（ x ）起伏太大，因此需选择适中的 h 。已有结论指出，在一定条件下，当 N →∞时，适当选择 h ，可使式（2.7.7）估计的概率密度函数收敛于真实函数，但在有限样本情况下，Parzen窗的逼近性质很难准确评价。

2． K 近邻方法

K 近邻方法可用于概率密度估计，其方法是选择并固定 K ，从零开始放大以 x 为中心的超球体，直到该球体中包含 K 个样本，计算超球体体积 V 代入式（2.7.2）计算（ x ），然后移动 x 的值，重复计算新的概率密度函数值。由于 K 固定，在概率密度取值大的区域，样本密集，故球体体积小，估计的概率密度取值大，反之亦然。在实际中可适当选择 K ，例如选择，但 K 近邻方法往往不是对概率密度函数的一个理想估计， K 近邻方法更多地用于构造一类简单的学习算法。

第1章以 K 近邻分类器为例对分类器功能进行了说明，利用2.5节的决策理论可进一步解释 K 近邻分类器的原理。

设训练样本集对应 C ₁ ，…， C _J 共 J 种类型，总样本数为 N ，在训练集中各类型对应的样本数分别为 N ₁ ，…， N _J 。对于一个给定的 x ，以其为中心的超球体内包括 K 个样本，体积为 V 。设近邻的 K 个样本中，标注为各类型的样本数分别为 K ₁ ，…， K _J ，利用这些数据进行概率估计，显然

故后验概率为

按照2.5节分类错误率最小的决策准则式（2.5.4），如果一个类型的后验概率最大，则输出为类。在 K 近邻算法中，由式（2.7.9）可见，最大对应近邻样本数最多，则分类为。可见 K 近邻分类器是一种建立在后验概率最大化基础上的分类器，只是后验概率的估计采用了 K 近邻概率估计。

当 K =1时，分类器称为最近邻分类器，即将待分类的输入特征向量分类为距离最近的训练样本的类型，可以证明，用简单的最近邻分类器，当 N →∞时，分类误差不大于最优分类误差的2倍，若取较大的 K ，分类误差进一步降低。尽管简单，在一些应用中 K 近邻分类器可以获得可接受的分类效果，但 K 近邻分类器易受维数灾难的限制。

K 近邻方法同样可以用于回归估计，若样本集的标注是实数，对于一个给定的 x ，得到以其为中心的超球体，其内包括 K 个样本，记 x 的 K 个近邻样本集合为 D _K （ x ），则 K 近邻回归输出为

显然，这个输出近似等于 E （ y | x ），是利用 K 个近邻样本的标注值对 E （ y | x ）的估计， E （ y | x ）是式（2.5.14）给出的回归问题的最优决策值。

2.7 非参数方法

1．Parzen窗方法

2． K 近邻方法

2.7　非参数方法