[1]Cover T, Hart P. Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 1967, 13(1):21–27.
[2]Hastie T, Tibshirani R, Friedman J. The elements of statistical learning:data mining, inference, and prediction, 2001.(中译本:统计学习基础——数据挖掘、推理与预测.范明,柴玉梅,昝红英等译.北京:电子工业出版社,2004.)
[3]Friedman J. Flexible metric nearest neighbor classification. Technical Report, 1994.
[4]Weinberger K Q, Blitzer J, Saul L K. Distance metric learning for large margin nearest neighbor classification. In: Proceedings of the NIPS. 2005.
[5]Samet H. The design and analysis of spatial data structures. Reading, MA:Addison-Wesley, 1990.
[1] kd 树是存储 k 维空间数据的树结构,这里的 k 与 k 近邻法的 k 意义不同,为了与习惯一致,本书仍用 kd 树的名称。
[2] x (1) =6是中位数,但 x (1) =6上没有数据点,故选 x (1) =7。
朴素贝叶斯(naïve Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法
。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入
x
,利用贝叶斯定理求出后验概率最大的输出
y
。朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。
本章叙述朴素贝叶斯法,包括朴素贝叶斯法的学习与分类、朴素贝叶斯法的参数估计算法。
设输入空间 X ⊆ R n 为 n 维向量的集合,输出空间为类标记集合 Y ={ c 1 , c 2 ,…, c K }。输入为特征向量 x ∈ X ,输出为类标记(class label) y ∈ Y 。 X 是定义在输入空间 X 上的随机向量, Y 是定义在输出空间 Y 上的随机变量。 P ( X , Y )是 X 和 Y 的联合概率分布。训练数据集
由 P ( X , Y )独立同分布产生。
朴素贝叶斯法通过训练数据集学习联合概率分布 P ( X , Y )。具体地,学习以下先验概率分布及条件概率分布。先验概率分布
条件概率分布
于是学习到联合概率分布 P ( X , Y )。
条件概率分布
P
(
X
=
x
|
Y
=
c
k
)有指数级数量的参数,其估计实际是不可行的。事实上,假设
x
(
j
)
可取值有
S
j
个,
j
=1,2,…,
n
,
Y
可取值有
K
个,那么参数个数
为。
朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设,朴素贝叶斯法也由此得名。具体地,条件独立性假设是
朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
朴素贝叶斯法分类时,对给定的输入 x ,通过学习到的模型计算后验概率分布 P ( Y = c k | X = x ),将后验概率最大的类作为 x 的类输出。后验概率计算根据贝叶斯定理进行:
将式(4.3)代入式(4.4),有
这是朴素贝叶斯法分类的基本公式。于是,朴素贝叶斯分类器可表示为
注意到,在式(4.6)中分母对所有 c k 都是相同的,所以,
朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择0-1损失函数:
式中 f ( X )是分类决策函数。这时,期望风险函数为
期望是对联合分布 P ( X , Y )取的。由此取条件期望
为了使期望风险最小化,只需对 X = x 逐个极小化,由此得到:
这样一来,根据期望风险最小化准则就得到了后验概率最大化准则:
即朴素贝叶斯法所采用的原理。