AI制胜：机器学习极简入门最新章节_宋立桓著

1.6　衡量机器学习模型的指标

对于模型性能的好坏，我们并不知道这个模型很可能就是一个差的模型（对测试集不能很好地预测或分类）。那么如何知道这个模型是好是坏呢？我们必须有个评判的标准。为了进一步了解模型的能力，我们需要用某个指标来衡量，这就是性能度量的意义。有了一个指标，我们就可以对比不同模型了，从而知道哪个模型相对好，哪个模型相对差，并通过这个指标来进一步调参以逐步优化我们的模型。

1.6.1　正确率、精确率和召回率

假设你有一台自动分类装置，可以自动检测、分类目标。为论述方便，我们就假设它是用来预测某种疾病的机器。这台机器需要用某种疾病的数据作为输入，输出只可能为两条信息之一：有病或者没有病。虽然机器的输出只有两种，但是其内部对疾病的概率估计是一个实数，比如说p。机器上还有一个旋钮用来控制灵敏度阈值a。因此预报过程是这样子：首先用数据计算出p，然后比较p和a的大小，p>a就输出有得病（检测结果为阳性），p<a就输出没有得病（检测结果为阴性）。

如何评价这台机器的疾病预测性能呢？这里就要注意了，并不是每一次都能准确预报的机器就是好机器，因为它可以次次都预报有疾病（把a调得很低），自然不会漏掉，但是在绝大多数时候它都只是让大家虚惊一场，称为虚警；相反，从不产生虚警的机器也不一定就是好机器，因为它可以天天都预报没有得病（把a调得很高）——在绝大多数时间里这种预测显然是正确的，但也必然漏掉真正的病症，称为漏报。一台预测能力强的机器，应该同时具有低虚警和低漏报。精确率高意味着虚警少，能保证机器检测为阳性时，事件真正发生的概率高，但不能保证机器检测为阴性时，事件不发生。相反，召回率高意味着漏报少，能保证机器检测为阴性时，事件不发生的概率高，但不能保证机器检测结果为阳性时，事件就一定发生。

先介绍几个常见的模型评价术语，现在假设我们的分类目标只有两类，正例（Positive）和负例（Negative）分别是：

●　True Positives（TP）：被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数（样本数）。

●　False Positives（FP）：被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数。

●　False Negatives（FN）：被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数。

●　True Negatives（TN）：被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数。

用大白话说，真正例TP是指模型将正类别样本正确地预测为正类别，同样真负例TN是指模型将负类别样本正确地预测为负类别；假正例FP是指模型将负类别样本错误地预测为正类别，而假负例FN是指模型将正类别样本错误地预测为负类别。这四个术语的混淆矩阵，如图1-17所示。

正确率是我们最常见的评价指标，正确率（Accuracy）=（TP+TN）/（P+N），这个很容易理解，就是被分对的样本数除以所有的样本数。通常来说，正确率越高，分类器越好。

错误率则与正确率相反，描述被分类器错分的比例，错误率（Error Rate）=（FP+FN）/（P+N）。对某一个实例来说，分对与分错是互斥事件。

图1-17

灵敏度（Sensitive）=TP/P，表示的是所有正例中被分对的比例，它衡量了分类器对正例的识别能力。

特效度（Specificity）=TN/N，表示的是所有负例中被分对的比例，它衡量了分类器对负例的识别能力。

精确率也叫精度（Precision），是针对我们预测结果而言的，表示被分为正例的示例中实际为正例的比例，那么预测为正就有两种可能了，一种就是把正类预测为正类（TP），另一种就是把负类预测为正类（FP），精度Precision=TP/(TP+FP)。

召回率（Recall）是覆盖面的度量，度量有多个正例被分为正例。召回率也是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类（TP），另一种就是把原来的正类预测为负类（FN），召回率Recall=TP/(TP+FN)=TP/P=灵敏度Sensitive，可以看到召回率与灵敏度是一样的。

举一个例子，假设儿童有5万例，识别成儿童的有4万例，识别成Other（其他）的有1例；Other有10万例，识别成Other的有8万例，识别成儿童的有2万例。由于我们现在分析的是儿童的准确率和召回率，所以儿童是正类，Other是负类。下面分析一下儿童的准确率和召回率：

●　检索到儿童，是儿童的数据并识别为儿童（即正类识别为正类），TP=4万。

●　把Other识别成儿童（即负类识别为正类），FP=2万。

●　未检索到儿童，是儿童却识别为Other（即正类识别为负类），FN=1万。

●　把Other识别为Other（负类识别为负类，TN=8万）。

精确率可以解释为，在所有判别为儿童的数据中是儿童的比例，精确度=TP/（TP+FP）=66.67%；召回率可解释为，在所有儿童相关的数据中，判别为儿童的比例，召回率=TP/（TP+FN）=80%。

一般来说，我们不可能同时提高所有上面介绍的指标，比如人们希望精确率和召回率都高，最好都是100%，这样代表识别出来的样本确实都是正类别，且所有正类别都被识别出来了，但是现实中这两个指标往往是此消彼长的关系。提高精确率通常会降低召回率值，即使不从数学上去证明一下，从感觉上也能理解，因为这两个指标的目标刚好相反，一个要求尽可能精确，那么要抛弃掉难以决定的、把握不大的样本；而另一个指标要求尽可能识别出所有的正类别，那么就可能带入把握不大的样本。可以想象一下识别垃圾邮件，精确与识别全是难以两全的。

根据实际应用场景，比如医院检测疾病的仪器是宁愿多虚警也要少漏报，因为没病的病人如果错误地检测出有病（虚警），可以通过后续更加仔细地检查进一步排除。比如网贷违约率，相对好用户，我们更关心坏用户，不能错放过任何一个坏用户。因为如果我们过多地将坏用户当成好用户，这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额，结果得不偿失。召回率越高，代表实际坏用户被预测出来的概率越高，它的含义类似“宁可错杀一千，绝不放过一个”。再比如地震预测，没有谁能准确预测地震的发生，但我们能容忍一定程度的误报，虽然谎报了几次地震，但真的地震来临时，我们没有错过，这样才是我们想要的。

1.6.2　F1 score和ROC曲线

由于存在精确率和召回率两个指标，对于多个模型来说，这两个指标差不多的情况下难以判断哪个更好，于是出现了F1值。假如两个模型识别样本的精确率与召回率分别是：0.6 0.6与0.5 0.7，那么哪个更好呢？于是数学家又定义了一个指标去计算，名叫：F score，常见的是F1 score。

F1 score是精确值和召回率的调和均值，它的公式如图1-18所示。

图1-18

对于上面的两个例子，F1 score分别是：

●　precision=0.6 recall=0.6时，F1 score=0.60。

●　precision=0.5 recall=0.7时，F1 score=0.58。

显然precision=0.6 recall=0.6的模型效果相对稍微好一点。

ROC曲线

ROC曲线起源于第二次世界大战时期雷达兵对雷达的信号判断。当时每一个雷达兵的任务就是去解析雷达的信号，但是当时的雷达技术还没有那么先进，存在很多噪声（比如一只大鸟飞过），所以每当有信号出现在雷达屏幕上，雷达兵就需要对其进行破译。有的雷达兵比较谨慎，凡是有信号过来，他都会倾向于解析成是敌军轰炸机，有的雷达兵又比较神经大条，会倾向于解析成是飞鸟。这个时候，雷达兵的上司就很头大了，他急需一套评估指标来帮助他汇总每一个雷达兵的预测信息，以及来评估这台雷达的可靠性。于是，最早的ROC曲线分析方法就诞生了，用来作为评估雷达可靠性的指标，在那之后，ROC曲线就被广泛运用于医学以及机器学习领域。

ROC的全称是Receiver Operating Characteristic Curve，中文名字叫“受试者工作特征曲线”，顾名思义，其主要的分析方法就是画这条特征曲线，图样示例如图1-19所示。可以看到该曲线的横坐标为假阳性率（False Positive Rate，FPR），负例分错的概率=FP/(FP+TN)，俗称假警报率。纵坐标为真阳性率（True Positive Rate，TPR），正例分对的概率=TP/(TP+FN)，其实就是查全率（召回率Recall），预测对的正例数占真正的正例数的比率。

图1-19

如果是随机分类（比如投掷硬币），没有进行任何学习器，FPR=TPR，即正例分对和负例分错概率相同，预测出来的正例负例和正例负例本身的分布是一致的，所以是一条45°的直线。因此，ROC曲线越向上远离这条45°直线，说明用了这个学习器在很小的代价（负例分错为正例，横轴）下达到了相对较大的查全率（TPR）。

举一个简单的例子方便大家的理解，还是刚才雷达的例子。假设现在有10个雷达信号警报，其中8个是真的轰炸机（P是真实正样本的个数）来了，2个是老鹰（N是真实负样本的个数）飞过，经过某分析员解析雷达的信号，判断出9个信号是轰炸机，剩下1个是老鹰，其中被判定为轰炸机的信号中，有1个其实是老鹰的信号（FP=1，FP是N个负样本中被分类器预测为正样本的个数），而剩下8个确实是轰炸机信号（TP=8，TP是P个正样本中被分类器预测为正样本的个数）。因此可以计算出FPR为0.5，TPR为1，而（0.5,1）就对应ROC曲线上一点。对于敏锐的雷达系统来说，我们肯定希望它能把所有的敌方轰炸机来袭都感知到并预测出来，即TPR越高越好，但我们又不希望把飞过的老鹰也当成轰炸机来预警，即FRP越低越好。这两个坐标值其实蕴含了相互制约的一个概念。

当绘制完成曲线后，就会对模型有一个定性的分析。ROC曲线的应用场景有很多，根据上述的定义，其最直观的应用就是能反映模型在选取不同阈值的时候其敏感性（Sensitivity，FPR）和其精确性（Specificity，TPR）的趋势走向。ROC曲线还有一个巨大的优势就是，当正负样本的分布发生变化时，其形状能够基本保持不变。

1.6 衡量机器学习模型的指标

1.6.1 正确率、精确率和召回率

1.6.2 F1 score和ROC曲线

ROC曲线

1.6　衡量机器学习模型的指标

1.6.1　正确率、精确率和召回率

1.6.2　F1 score和ROC曲线