工业大数据分析算法实战最新章节_田春华著

3.6
决策树

3.6.1 决策树的概念

决策树（Decision Tree）是一种典型的分而治之的机器学习算法，基于样本数据，递归选择合适特征条件作为分支节点，不断提高子分支的“纯度”，结果直观，可解释性好 ^[26] 。决策树是一棵有向树，有一个根节点（没有输入边），其他节点都有一条输入边，有输出边的节点称为内部节点或测试节点，所有其他节点称为叶节点 ^[27] 。决策树算法的原理可用图3-30来进行简要示意，图3-30a所示为由 x ₁ 、 x ₂ 两个特征变量构成的决策树，根据切割点 t ₁ 、 t ₂ 、 t ₃ 、 t ₄ ，有5种结果 R ₁ ， R ₂ ，…， R ₅ （可以是连续量，也可能是类别量），例如，当 x ₁ ≤ t ₁ 且 x ₂ ≤ t ₂ 时，模型的结果为 R ₁ ，决策树本质上是在特征空间上进行不断切分，形成合适的子空间，每个子空间上的结果是一样的，如图3-30b所示。决策树分为分类树和回归树两大类，前者用于分类标签值，后者用于预测连续值。

图3-30 决策树示意图

a）由 x ₁ 、 x ₂ 两个变量构成的决策树 b） x ₁ 、 x ₂ 二维空间的划分

3.6.2 决策树构建过程

简单来说，决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。构建步骤如下。

1）遍历每个特征的每一种分割方式，找到最好的分割点；

2）将数据划分为不同的子节点，如N1，N2，…;计算划分之后所有子节点的“纯度”信息；

3）对第2步产生的分割，选择出最优的特征以及最优的划分方式；得出最终的子节点：N1，N2，…;

4）对子节点N1，N2，…，N m 分别继续执行2~3步，直到每个最终的子节点都满足“纯度”要求。

1.分割属性选择

决策树算法是一种“贪婪”算法策略，只考虑在当前数据特征情况下的最好分割方式，不进行回溯操作。决策树是通过“纯度”来选择分割特征属性点。在训练数据集上，分别对各个特征属性进行划分操作，对所有划分操作的“纯度”进行比较，选择“纯度”越高的特征属性作为当前需要分割的数据集进行分割操作，持续迭代，直到满足停止条件。

常用的“纯度”度量指标有基尼（Gini）系数、熵（Entropy）、错误率（Error），更多的指标可以参阅参考文献［26］。

2.停止条件

决策树构建的过程是一个递归的过程，所以必须给定停止条件，一般设定的停止条件如下。

1）大于设置的决策树的最大深度；

2）小于设置的内部节点再划分所需最小样本数；

3）小于设置的叶节点最少样本数；

4）大于设置的最大叶节点数；

5）小于设置的不纯度阈值。

3.效果评估

与一般的分类算法一样，效果评估多采用混淆矩阵、召回率、精确度等指标。

决策树也可以采用叶子节点的纯度值总和计算损失函数值来评估算法效果，值越小，效果越好。

4.后剪枝

决策树过度拟合一般是由于节点太多导致的，剪枝优化提高决策树的泛化能力非常重要，也是最常用的一种优化方式（另外一种优化方式是用随机森林算法）。剪枝可以分为预剪枝和后剪枝。预剪枝指的是在构建决策树的过程中提前停止；后剪枝则是先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树变为叶结点能带来泛化性能提升，则将该子树替换为叶结点。因为决策树是一个贪婪算法，预剪枝策略一般无法得到比较好的结果，因此采用的往往是后剪枝策略。

常见的后剪枝方法包括错误率降低剪枝（Reduced Error Pruning，REP）、悲观剪枝（Pessimistic Error Pruning，PEP）、代价复杂度剪枝（Cost Complexity Pruning，CCP）、最小误差剪枝（Minimum Error Pruning，MEP）、CVP（Critical Value Pruning）、OPP（Optimal Pruning）等方法，这些剪枝方法各有利弊，关注不同的优化角度 ^[28] 。

决策树剪枝系数由损失函数得来：