人工智能原理与实践最新章节_刘春雷著

1.4 建模中的拒绝推断

建立新模型或优化已有模型都需要使用业务积累的客户数据，但是业务的流程决定了这些数据只是前期审核通过的客户数据。这些客户中，有的表现为好样本，有的表现为坏样本。依据已有客户的好坏标签，才能建立量化模型，从而寻找客户好坏和客户特征直接的关联关系，这个流程如图1.3所示。

图1.3 常见的风控模型建模数据使用示意图

图1.3中，在审核阶段被批准的客户和被拒绝的客户，其好坏分布理论上是不一致的，审核通过的客户的好坏分布和所有进件客户的好坏分布也不一致。如果分布一致，则说明审核机制没有起到真正的作用。从理论上来说，被拒绝客户群体中的坏客户比例应该远大于被批准客户群体中的坏客户比例。

但是这样就会导致一个问题，即建立模型基于的客户群体分布和审核阶段面对的客户群体分布是不一致的。如果新模型被部署到审核阶段，可以预料到会产生一定的偏差。对于不同的业务，这个偏差可能很大，也可能很小。但是作为风控管理的重要一环，建模和风控人员必须对这个固有的偏差有所了解。

图1.4展示了基于全部人群数据和批准人群数据建立的两个不同模型对逾期率预测的结果。图中，模型输出的风控等级是把模型输出的分数按照逾期率直接转换为10个等级，等级越高对应的分段人群逾期率越高。可以看出，相比用全部人群数据建立的无偏差模型，只用批准人群数据建立的模型可能只是一个次优模型，次优模型对高风险端有一定程度的低估。而对于高风险的低估，对任何业务的收益都必然有一定的影响。

是否需要考虑图1.4所示的这种偏差对业务的影响，可以通过逆推法来验证。在获得新模型后，假如新模型偏差较小，那么新模型对之前拒绝样本的风险预测也应该比较合理。拒绝样本的风险值应该比所有样本平均风险值高一定的倍数，如3倍。如果达不到这一水平，说明只用申请批准样本建立的模型没有达到预期效果。

图1.4 全部人群数据和批准人群数据建模结果对比

为了消除因拒绝样本丢失而引起的固有偏差，可以实行以下几种拒绝推断（Reject Inference）的方法。

（1）A/B测试：在企业成本允许的情况下，在客户审核阶段，按照一定的比例随机挑选一部分客户。对这些被随机选中的客户，不进行后面的风控模型审核而直接发放贷款，这些不经过任何风控模型判断的客户的贷后表现即是没有任何偏差的样本数据。这些客户的逾期率一定会比按照正常流程通过风控审核的客户高，从而给企业造成一定的损失，但是得到的无偏差数据可以为后期建模提供巨大的便利。

（2）获取被拒绝人群在其他平台上的表现：挑选一部分之前被拒绝的客户，为了获得这部分客户的风控表现，可以使用第三方数据，检查这部分被模型拒绝的客户是否通过了其他企业或平台类似产品的审核。如果这些客户在其他企业通过了类似产品的审核，可以查看其贷后表现，如是否有逾期的行为。一旦获得了这些客户在其他平台的贷后表现，这些客户的标签即可作为建模的参考依据。

（3）数学统计方法：通过一些数学和统计手段，对被拒绝人群的数据进行处理，减小误差。常用的方法包括扩张法等。

下面重点介绍通过数学统计方法进行拒绝推断的方法，包括赋值法和扩张法。对于赋值法，包括以下几种情况。

（1）完全忽略被拒绝人群的结果，凭借经验检查只用批准人群数据建模的模型是否满足需求。

（2）把被拒绝人群的标签全部设为逾期，和批准人群数据联合建模。

（3）通过一些专业规则，有针对性地挑选部分被拒绝人群，把标签设为逾期或非逾期，再联合批准人群数据建模。

（4）使用按比例赋值方法，为被拒绝人群随机分配逾期和非逾期两种标签，确保该人群的逾期比例是批准人群逾期比例的2~5倍，或其他符合实际情况的倍数。设置这样一个高倍数的原因，是被拒绝人群的客户逾期数量要远高于批准人群。

而扩张法则更加侧重于技术上的分析手段，下面着重进行介绍。

1.4.1 简单扩张法（硬截断法）

简单扩张法是使用根据批准客户数据建立的模型，对拒绝客户给出逾期概率预测。假设审核批准的客户样本数据为A，审核拒绝的客户样本数据为B。通过数据A和A中的好坏标签，得到模型model A。简单扩张法的具体步骤如下。

（1）对于B中的每一个样本x，用model A得到x为好客户（y=1）的概率p。

（2）如果p大于等于p ₀ ，将x标记为好客户，否则标记为坏客户。需要保证B中的坏客户比例是A中的2~5倍，由此设定阈值p ₀ 的选择标准，当然具体的倍数选择和业务的客户特征等条件有关，需要结合具体要求考虑。

（3）把获得好坏标签后的数据B和已知真实标签的数据A结合在一起，重新建模得到新模型。

（4）根据新模型的实际效果和参数收敛情况，可以重复上述过程并迭代多次。

1.4.2 加权扩张法（模糊扩张法）

1.4.1节介绍的简单扩张法中，每一个拒绝样本中的客户只能分配为好坏客户中的一种，而加权扩张法则是根据模型预测概率，以加权的形式把客户同时拆分为好坏客户。同样假设审核批准的客户样本数据为A，审核拒绝的客户样本数据为B。通过数据A和A中的好坏标签，得到模型model A，加权扩张法的具体步骤如下。

（1）对于B中的每一个样本x，用model A得到x为好客户（y=1）的概率p。

（2）把样本x同时复制为一个好客户和一个坏客户，但是好客户的权重为p，而坏客户的权重为1-p。同时注意，A中的数据权重均为1。这样B中的数据量会翻倍，但是每个客户的权重不同。把带有权重标签的B和A合并重新建模，建模时需要考虑每个数据点权重不同。为了保证B中的坏客户比例是A中的2~5倍，同样可以调整B中好坏客户的权重。之前B中样本x作为好客户的权重为p，而x作为坏客户的权重为1-p。调整后，x作为好客户的权重为

而x作为坏客户的权重变为

式中，C是调整倍数因子，具体数值根据B中坏客户比例要达到的A中坏客户比例的倍数要求而定。

（3）根据新模型的实际效果和参数收敛情况，可以重复上述过程并迭代多次。

1.4.3 分段扩张法

在简单扩张法中，拒绝客户按照同样的阈值分为好坏客户，这样可能会导致被拒绝人群的违约分布情况和批准人群的违约分布情况非常不一致，分段扩张法正好解决了这个问题。同样假设审核批准的客户样本数据为A，审核拒绝的客户样本数据为B。通过数据A和A中的好坏标签，得到模型model A。分段扩张法的一个合理假设为，如果运用model A来预测好坏概率，对于A和B中的客户，如果model A预测的概率相近，则这些客户有相似的风险特征。基于这样的假设，分段扩张法的具体步骤如下。

（1）对于A中的所有数据，按照分数分段，如分为10组，不同组中的客户有不同的违约概率。

（2）对于B中的所有数据，利用model A打分，根据A中的分组方法，把B中的数据放入相应的分段中。如果某个分段中A数据客户对应的违约率为10%，那么按照B数据客户违约率应为A数据客户的2~5倍的假设，假如决定2倍是一个合理值，B中落入该分段的所有样本违约率应为20%。根据20%的违约率，可以调整该分段中B数据样本的模型分数阈值，从而给出对应的好坏客户标签。

（3）把打好标签的数据B和已知实际标签的数据A结合在一起，重新建模得到新模型。

（4）根据新模型的实际效果和参数收敛情况，可以重复上述过程迭代多次。