人工智能原理与实践最新章节_刘春雷著

1.5 评分卡模型

评分卡模型应用广泛，是金融领域中常用的传统建模方法，1.2节中提到的FICO分数就是基于评分卡模型的一种具体应用。评分卡模型主要用于处理离散型变量，如果有连续变量，首先需要把连续变量离散化，同时评分卡模型关注的变量个数通常也不会太多。评分卡模型的主要优点包括很好的可解释性和预测稳定性。

1.5.1 评分卡模型种类

传统的评分卡模型应用范围相对于机器学习模型来说比较小，通常可以分为几个常用的应用场景。例如，人们常提到的A卡（Application Score Card）即申请评分卡，B卡（Behavior Score Card）即行为评分卡，C卡（Collection Score Card）即催收评分卡。这三种评分卡模型的主要区别有两点。

（1）在业务中使用的时间点不同。A卡、B卡、C卡分别侧重于贷前、贷中和贷后三个场景。

（2）对数据的要求不同。A卡主要用于贷款初期的用户信用预测，使用的数据主要是客户基本数据和外部数据，一般在获取客户后一年以内；B卡则是在客户有了一定的历史记录和行为后，针对较多的行为数据进行分析，时间积累在获取客户后3~5年；C卡的建立则对数据量要求更大，需要加入催收客户等行为数据。

1.5.2 评分卡模型与WOE计算

在学习评分卡模型的数学原理之前，首先要理解几个相关的统计变量，一个是WOE（Weight of Evidence），另一个是IV（Information Value）。WOE是风险预测领域中一种常用的衡量自变量分组对于好坏样本分离程度的指标；而IV通过对WOE加权求和得到，用来衡量自变量对目标变量的预测能力。在评分卡模型的应用中，WOE自动把连续变量和枚举变量编码为离散值，并且为每一个离散值赋予唯一的WOE（数值型）。

对于某一变量而言，可以根据变量的取值范围对全部历史数据（客户群）进行分层、分组或分箱。离散型变量比较好理解，如按颜色分组，各种颜色自然地把数据分成了多个组。连续型变量需要对取值范围预先规定，如按年龄分组，小于18岁可能是一个组，大于50岁可能是另一个组。可以看出，分组的具体方法和具体业务有密切关系。另外，也可以使用量化的方法对某一变量自动分组以达到最佳效果。

计算WOE的数学公式如下。

式中，event代表定义的一个事件，在这里定义风险预测中的坏客户出现为一个事件，则好客户出现为一个非事件；表示非事件（好客户出现）在当前字段（attribute）某一分层中的数量， _t 表示所有非事件（好客户出现）的数量， ^e 表示事件（坏客户出现）在某一分层中的数量，表示所有事件（坏客户出现）的数量。因此对于当前attribute字段，计算好客户在某一分层中的比例除以坏客户在同一分层中的比例，再取自然对数，即为该变量在该字段某一分层中的WOE。

以一个具体的变量，如年龄（age）来举例说明具体的计算过程。如表1.2所示，假设总共有1000个好客户和200个坏客户，按照表1.2中的四个年龄段分层，根据历史数据和表现结果，可以得到好坏客户在每一年龄层中的具体数量和比例。WOE的具体计算则在最后一列中得以展现。可以看出，WOE的计算方式把年龄这个连续的变量统一转化为WOE，而且表中WOE的取值只有4种可能，又分别对应了不同的年龄层。

表1.2 年龄变量计算WOE

当历史数据量较少时，某些分层中好客户或坏客户的数量可能为零，从而导致WOE计算出现异常值。对应的平滑处理方法为，预先增加平滑因子x，确保WOE计算成功。修正过的WOE计算公式如下。

式中，x可以取0~1的数值，如0.5。

在清楚了WOE的意义和计算方法后，可以认识到IV的计算是和WOE紧密相关的，其具体计算公式为

式中，m为当前研究变量具体的分层数量。IV其实是每一层WOE的加权平均。IV值越大，代表研究的变量对目标变量的预测效果越明显。因此IV通常用来进一步筛选变量，对于低于某一阈值的变量，可以视为不理想变量，不参与评分卡具体计算模型。筛选变量通常的评断方法如下，但是用户应该根据实际观测效果谨慎决断。

（1）IV<0.1，当前变量对目标变量的预测能力较弱。

（2）0.1<IV<0.3，当前变量对目标变量的预测能力中等。

（3）0.3<IV<0.5，当前变量对目标变量的预测能力较好。

（4）IV>0.5，当前变量对目标变量有过度预测倾向。

可以看出，WOE计算其实是一个分段函数，根据变量中各个分类值或连续变量离散化后的分类，把特征变量转换为一个分段值。从本质上看，WOE的计算其实是把特征变量x和目标变量y之间的非线性关系或线性关系统一转换为单调关系，而这个单调关系是与目标变量y所代表的预测概率相关的。例如，在金融风控场景中，目标变量y对应的事件就是好客户或坏客户，对特征变量x的WOE计算结果把特征变量x成功转换为对好坏客户的预测概率相关变量。WOE越大，代表特征变量x对目标变量y为好客户的预测概率越高。

以好坏客户为例，计算某个特征变量x的WOE的公式如下。

1.5.3 评分卡模型与逻辑回归

评分卡模型通常与逻辑回归算法搭配使用，而逻辑回归算法和很多其他机器学习算法一样，需要的输入值必须是数值类型。

在评分卡模型的具体建立和使用中，首先通过1.5.2节讨论的方法得到各个变量的输入值，即为相应的WOE值，然后把各个变量的WOE值代入逻辑回归算法，即得到评分卡的输出值。

逻辑回归算法的原理和推导将在后面的章节中进行更加详细的讨论，这里直接给出逻辑回归算法的表达式：

式中，即为优势比。逻辑回归算法其实是利用线性方程来估计优势比的自然对数，而逻辑回归的优化过程就是寻找最佳的参数（β ₀ ，…，β _n ）的过程。

在风险预测场景中，p可以定义为好客户的概率，1-p则为坏客户的概率（或相反，根据实际需要而定）。逻辑回归算法的最终输出值是优势比的自然对数。因此，被预测客户为好客户的概率越大（或为坏客户的概率越小），优势比对应的对数值也越大。基于预测对象好坏概率和逻辑回归预测值的单调对应关系，可以进一步通过下面的公式把逻辑回归结果以线性转化的方式，变为更加容易被人理解的分数（如FICO分数）：

式中，factor和offset为待指定的参数。根据评分卡模型的需要，可以调节factor和offset参数，从而得到理想的分数范围。例如，需要优势比为50，对应的分数为600，并且每当优势比变为之前的2倍时，对应的分数应增加20。基于上面两个限制，可以得到两个方程：

从而得到下面的系数答案：

根据上面的答案，在该设定条件下，用户的具体信用分数计算公式变为

需要注意的是，这里对优势比的定义是好客户的概率除以坏客户的概率，实际建模中，很多时候直接预测坏客户的概率更方便，因此，优势比会被定义为坏客户的概率除以好客户的概率。但这并不影响本节讲述的任何原理和逻辑，只是需要注意在代入具体变量和数值时，前后要保持一致。