人工智能原理与实践最新章节_刘春雷著

2.4 多分类模型的评价方法

多分类模型用于需要预测的分类多于两个分类的情况，例如，预测一张图片中的动物是100种动物中的哪一种。为了便于理解，这里假设多分类模型的输出结果只是多个分类中的一个分类结果。

以计算每种预测结果的精确率（precision）指标为例，假设某个模型预测4种分类A、B、C、D中的一种，并且该模型在测试数据集上的预测结果中有以下表现。

（1）A分类：3个真正的A分类被正确预测为A，即3个TP；2个其他分类被错误预测为A，即2个FP。

（2）B分类：5个真正的B分类被正确预测为B，即5个TP；3个其他分类被错误预测为B，即3个FP。

（3）C分类：2个真正的C分类被正确预测为C，即2个TP；2个其他分类被错误预测为C，即2个FP。

（4）D分类：8个真正的D分类被正确预测为D，即8个TP；5个其他分类被错误预测为D，即5个FP。

根据上面的表现，可以单独计算每一种分类结果的precision指标，结果如表2.2所示。

表2.2 多分类模型中单个分类预测指标计算结果

根据precision的计算方式计算出每一种分类的结果后，有以下几种不同的方式来计算整个模型的平均precision。

（1）宏观的平均方式，模型的平均precision等于每种分类的precision的简单平均值，如从上述结果中可以得到：

（2）微观的平均方式，先计算所有分类的TP和FP之和，再根据定义计算模型的precision，如从上述结果中可以得到：

（3）假设上面4种分类的真实个数分别为6、8、6和10个，那么还可以计算加权的宏观平均指标，计算公式如下：

从上面不同的计算方式中可以看出，影响3种不同的计算结果的关键在于分类的不平衡程度。对于各个分类数量基本相同的情况，不同计算方式的结果相差不大。但是对于分类高度不平衡的情况，加权的宏观平均方式或微观平均方式会更加合理。