Python金融风控策略实践最新章节_冯占鹏著

2.2.3 规则测算效果分析和筛选

在完成变量分箱后，接下来，先要基于变量非缺失值分箱结果确定规则对应的最优切分点和取值方向，在确定了规则切分点和取值方向后，再对规则效果进行分析并筛选效果好的规则进行泛化。规则最优切分点通常从头部或尾部 N %样本对应的分箱中确定，在确定规则后，再基于触碰量、触碰率、Lift等指标评估和筛选效果好的规则进入规则泛化环节。具体步骤如下所述。

（1）取头部 N %样本对应的所有分箱结果，令 a =Max（Odds1）；取尾部 N %样本对应的分箱结果，令 b =Max（Odds2）

在批量分析一批变量之前，可能不清楚变量是负向变量还是正向变量，所以，在分析时，会同时计算适用于负向变量的Odds1指标（适用于取值越小对坏样本区分度越好的变量）和适用于正向变量的Odds2指标（适用于取值越大对坏样本区分度越好的变量）。若分析的变量是负向变量，且变量效果较好，则最优切分点会出现在头部 N %样本中；若分析的变量是正向变量，且变量效果较好，则最优切分点会出现在尾部 N %样本中。

（2）通过判断 a 和 b 的取值大小来确定最优切分点

若 a ≥ b ，则可判断变量为负向变量，切分点为 a 对应分箱的临界点。接下来，先定位到 a （即Max（Odds1））对应的分箱，常见分箱通常为“（数值1，数值2］”的形式，因为变量为负向变量，所以最优切分点即为“数值2”，规则取值方向为“≤”，最终规则内容为“变量≤数值2”，再加上对应的风控建议，就形成了一条完整的单维度规则。

若 a < b ，则可判断变量为正向变量，切分点为 b 对应分箱的临界点。同理可得，若 b 对应的分箱为“（数值1，数值2］”，那么，因为变量是正向变量，所以最优切分点为“数值1”，规则取值方向为“>”，最终规则内容为“变量>数值1”。

当然，除 a ≥ b 和 a < b 以外，还可能存在其他情况。以Odds1的计算逻辑举例，公式中可能出现分母为0的情况，这样算出来的Odds1其实是异常值，在这里的阐述中，为了方便读者快速理解单维度策略分析原理，未把异常值的情况考虑在内，但是，在后续代码部分，会涉及和处理异常情况。另外，因为出现异常值的情况不多，所以这里不再针对异常值的情况进行讨论。

（3）规则效果分析和筛选

在确定了规则的最优切分点和取值方向后，单维度规则基本上就确定下来了。接下来，主要基于预期的规则的触碰量、触碰率以及触碰样本的Lift值来评估规则效果。在规则触碰率小于 N %（ N 通常取值为5）且触碰量至少大于或等于 n （ n 通常取30，取值要满足大数定律）的前提下，触碰样本的Lift（Lift通常要大于3）取值越大，规则效果越好。

在完成规则效果分析后，需要基于预设的条件筛选效果足够好的规则进行泛化分析。在设定规则筛选条件时，需要结合业务情况，如“规则触碰率范围为1%~6%、规则触碰量大于或等于50且规则触碰样本的Lift大于或等于4”等。在2.2.7节所示的案例实践的代码部分，在基于规则效果进行规则筛选的时候，会在筛选结果中增加标签2，若规则满足上述筛选标准，则标签2取值为Y，否则标签2取值为N。

在实际生产的单维度策略分析和挖掘过程中，经常一次性分析成百上千个变量，也就是批量进行的，若基于规则效果筛选出的规则达到预期的较多（如大于30条），那么，在完成规则筛选后，会分析筛选的规则用到的变量的线性相关性，基于分析结果筛选相关性弱的规则进入规则泛化环节。基于规则的触碰量、触碰率和Lift值筛选规则很容易理解，为什么要基于变量间的线性相关性筛选规则呢？因为若基于规则效果筛选的规则对应的变量线性相关性较强，则规则触碰的大部分样本可能是重叠的，没必要对全部规则进行泛化分析，这就需要对规则对应的变量进行线性相关分析以精简待泛化规则集。在进行变量线性相关分析和筛选的时候，首先对变量进行两两相关性分析，若两个变量的线性相关系数绝对值大于某个值（如0.9），那么，通常剔除Lift值较小的规则，保留Lift值较大的规则，最终筛选出来的规则会进入下一步的规则泛化环节。

图2-4是策略测算效果分析和筛选的结果示例，标签1为Y表示变量描述性统计分析筛选通过，标签2为Y表示规则效果分析筛选通过，标签3为Y表示基于规则变量的相关性分析最终筛选出来的需要进行泛化的规则，在最终筛选规则进行泛化的时候，筛选的是标签1、标签2和标签3同时为Y的规则。

图2-4 策略测算效果分析和筛选结果示例

注意

在进行策略测算的时候，无论是贷前、贷中，还是贷后，除使用不同风控场景的样本（贷前、贷中、贷后策略测算使用的样本必然是不一样的，贷前使用贷前的样本，贷中使用贷中的样本，贷后使用贷后的样本）和不同的目标字段以外，测算方法、分析指标基本上是一样的。策略测算方法是通用的，也就是说，上述这套单维度策略测算方法基本上可以在整个风控过程的不同风控场景中使用。

但是，在进行策略泛化的时候，除策略泛化的样本不同以外，策略泛化的指标和指标计算逻辑也存在一定的差异，需要结合实际场景，具体分析。