变量描述性统计分析主要是基于训练集分析变量对应的一些常见的统计学指标,通过这些指标,可以对变量的取值和分布有大概的了解。变量描述性统计分析的主要指标见表2-2。
表2-2 变量描述性统计分析的主要指标
(续)
在进行变量描述性统计分析过程中,若某一个变量众数占比过高(如缺失值或非缺失值众数占比≥98%,具体可结合数据情况自定义),则说明这个变量包含的信息较少,进入下一轮变量分箱的意义不大,不适合用来设计单维度规则。图2-2为变量描述性统计分析部分结果示例,基于变量描述性统计分析结果,标签1取值为Y表示变量会进入下一轮分析,标签1取值为N表示该变量包含信息较少,不进入下一轮分析。
图2-2 变量描述性统计分析部分结果示例