人工智能原理与实践最新章节_刘春雷著

3.5 模型的监控

模型部署以后，需要定期监控其表现是否和预期一致。模型的效果不会一直保持稳定，因为底层的数据分布可能会随时间发生变化，预测的结果分布也会随时间发生改变。因此我们需要一套机制去监控模型的效果，一旦模型效果低于可以接受的阈值，就必须调整模型，重新部署。

衡量底层特征或模型结果随时间变化程度的一种统计方法是计算群体稳定性指数（Population Stability Index，PSI），其计算公式如下：

式中，根据实际业务需求，采用相同的标准把基准分布（base）和待检验分布（test）分别分为n组。例如，根据模型输出的概率或评分，把评分小于100的数据分为第一组，评分在100~200的数据分为第二组，以此类推。在每个区间中，基准分布数据占比p _base 和待检验分布占比p _test 会有不同。例如，基准分布在得分小于100的区间中的占比可能为10%，而待检验分布在同样区间中的占比为12%。通过上式，计算出总的PSI值。一般来说，PSI小于0.1说明分布基本没有发生变化，在0.1~0.2范围内也可以接受，大于0.2或0.25则说明分布变化较大。

分类模型的输出值通常为预测概率，因此可以用来计算PSI值。模型训练部署以后，可以记录预测概率在基准数据上的分布作为基准分布。经过一段时间的运行后，监控模型在新的数据上的概率分布，用来和基准分布相比较。一旦PSI值过大，就可以判断模型稳定性发生了变化。

值得注意的是，模型稳定性发生变化，并不一定代表模型的实际效果不如以前。最终判断模型效果的依据始终应该是业务的实际效果，如比较预测逾期率和实际逾期率。但是模型稳定性的监控是必要的安全屏障，一旦模型稳定性发生变化，往往意味着底层数据的特征分布发生了变化，需要建模人员重新审视模型的实际效果。