Python金融风控策略实践最新章节_冯占鹏著

2.2.7 案例实践：授信审批场景单维度策略开发

本节将基于脱敏后的互联网金融贷前数据样例完成贷前授信审批场景单维度策略的分析和挖掘，该数据样例包含30个变量，其中var1~var16这16个变量为需要进行分析的自变量，其他变量为主键或者标签类变量，变量的数据字典见表2-8。

表2-8 数据样例变量

（续）

基于提供的数据样例，我们此次要分析表2-8中var1~var16这16个自变量在目标字段分别为fpd_30_act和mob3_dpd_30_act的情况下是否适合用来构建单维度规则。基于业务经验，若一个变量效果较好，则在大多数情况下，它们在长周期和短周期目标字段下的表现应该都较好。在进行单维度策略分析的时候，同时分析变量在不同目标字段上的效果，有助于我们找到效果确实较好的规则进行上线决策。

在大数据时代，策略开发时往往要分析成千上万个变量，对工作效率要求比较高。本节提供的实践代码会注重解决工作效率问题，不但支持批量化、自动化分析成千上万个变量，而且支持同时对不同目标字段、不同类型样本进行组合分析，并在分析完成后自动输出分析结果，极大地提升了工作效率。

在本次提供的样例数据中，客户授信申请时间分布范围为2021年8月~2022年2月，本次使用2021年8、9、10月进行授信申请且申请通过后30天内用信的样本进行策略测算。在策略测算完成后，会在全量样本上进行策略泛化，正常来讲，应该在非测算集（验证集）上进行策略泛化，因为本书提供的案例实践主要是为了演示实践过程，读者在实际生产中要做到活学活用。为什么不把授信申请通过后超过30天用信的样本纳入策略测算的范围呢？因为这些样本用信时点与授信申请时点的时间跨度较大，也就意味着授信申请通过后的表现期较长，若将这些样本纳入策略测算范围，相当于用客户授信申请时点的行为信息来拟合未来很长时间客户的风险表现，拟合结果会不准确。我们平时进行贷前授信审批场景策略测算的时候，要注意选取样本的时效性，我们拿到的样本的观察点是授信申请时点，要结合客户的用信时点，选择授信申请通过后且短时间（通常1个月以内）用信的样本来做策略测算。在确定了测算样本后，结合业务需求确定样本的表现期和目标字段，如要重点防范短期风险，表现期可设置得短一些，目标字段可选择fpd_15_act、fpd_30_act等；要防范长期风险，表现期可设置得长一些，目标字段可选择mob6_dpd_30_act（截至mob6，历史最大逾期是否超过30天）等，读者需要在生产中具体问题具体分析。

注意

本书涉及的Python代码较多，若全部进行展示会占用较大篇幅，所以完整的代码以附件的形式免费提供，读者可扫描封底二维码获取。

在本章前边章节中展示的策略开发过程中的相关分析结果截图均为使用本节数据样例和代码自动生成的，各位读者可自行基于本节数据样例和代码进行实操并查看分析结果。

单维度策略开发主要包括策略测算和泛化两个大环节，接下来进行贷前授信审批场景单维度策略测算环节代码实践。代码实践部分如下。

在完成单维度策略测算后，紧接着要对测算环节筛选出的效果好的规则进行泛化。需要再次强调的是，策略测算选取的是授信申请通过、30天内用信且有风险表现的样本，策略泛化是在全量样本上进行的，授信申请被拒绝的样本也会用来做策略泛化。这种漏斗式的分析可以层层递进地展示策略效果。接下来，我们进行单维度策略泛化代码实践。