购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.5 回归模型的评价方法

回归模型和分类模型的最大区别在于输出结果的形式不同,分类模型返回分类结果,而回归模型返回连续数值预测值。图2.6所示为一个简单的线性回归模型预测结果。

图2.6 线性回归模型预测结果示意图

对于回归模型预测结果效果的评价,有以下几种常用的方式。

(1)均方误差(Mean Squared Error,MSE),计算预测值和真实值之差的平方和,再求平均值,计算公式如下:

利用上式计算,图2.6的预测结果的均方误差为0.984。

(2)均方根误差(Root Mean Squared Error,RMSE),计算预测值和真实值之差的平方和的平均值,再取平方根。和均方误差相比,均方根误差的量纲和预测值的量纲相同,因此更能形象地反映预测的效果,其计算公式如下:

利用上式计算,图2.6所示的预测结果的均方根误差为0.992。

(3)平均绝对误差(Mean Absolute Error,MAE),计算预测值和真实值之差的绝对值的平均值,计算公式如下:

利用上式计算,图2.6所示的预测结果的平均绝对误差为0.883。

(4)R 2 值,该值有一定局限性,但是可以用来计算线性模型中预测值和真实值吻合的程度,取值为0~1,值越大预测效果越好。R 2 也可以理解为测量真实值的方差能被预测值解释的程度,方差能够被解释得越多,预测效果越好,具体计算公式如下:

式中,数值1减掉的部分,其分子代表真实值和预测值之差的平方和,而分母代表真实值和所有真实值平均值之差的平方和。可以理解为预测值在多大程度上能够比简单的平均值更好地预测y值。利用上式计算,图2.6所示的预测结果的R 2 值为0.823。

需要注意的是,R 2 一般只能用来评价线性回归模型,对于非线性回归模型,其假设不成立。另外,对于线性回归模型,R 2 有一个非下降的性质(non-decreasing property),即随着更多的自变量加入模型,R 2 只会保持不变或增加,不会下降。如上面的线性回归一例,加入自变量平方项,会发现预测效果更好,R 2 更大。

但是这个现象不代表模型真的越来越好,而是过拟合的可能性越来越高。为了克服上式的困难,可以引进调整后的R 2 公式:

式中,n为数据点个数;k为除去常数项的自变量或特征个数。这种计算R 2 的方式,可以适当降低增加自变量对真实预测效果的评价,因而更加准确。 Vel7LgW+KC3wl2BcTvOMbOcWq7yV83tOnl7oiSn7Aa6W5HK5+4xOE9dltUur5ULF

点击中间区域
呼出菜单
上一章
目录
下一章
×