老饼讲解:一步一步上手学习
接上文《评分卡实例-问题概述》
前文提要与本文概述
上节我们已经介绍了用于建立评分卡的原始数据,
本文我们讲述制作评分卡的第一步:数据准备(分箱处理)。数据准备共包括变量的选择和预处理,这一步骤也称为特征工程,其中"分箱处理"就是最主要的内容了,下面我们就来看看评分卡中,在建模前应该怎么处理数据,特别是分箱处理,它是评分卡中最重要、最耗时的一步。
本节讲述如何将评分卡实例中的数据进行分箱、并选择出可用的变量。
在评分卡建模之前,我们需要先对变量进行分析,选择出入模的变量。
变量的分析主要包括变量分析、选择与分箱,三者是一起完成的,总的来说,就是将原始变量变散化,并从中选择出与y强相关的变量作为入模变量。
变量分析的实际操作流程如下:
1. 将变量进行分箱。
2. 使用badRate趋势分析法(或iv法)分析哪些变量可以入模。
其中,badRate法分析过程如下:
1. 检查变量与badRate是否相关,确定该变量是否可以入模。
2. 对变量进一步分箱,使变量与badrate的关系更明显。
备注:1和2是反复进行的,一边分箱,一边确定要不要该变量
下面通过一个例子,简单了解badrate法是如何对变量进行分箱以及分析的。
以rev变量为例,我们先粗略对它进行分箱,试探变量的badRate趋势。
rev变量的初探结果如下:

备注:badrate就是坏客户占比,即该组的坏客户在该组总客户中的占比。
可以看到,rev变量的badRate有一定的单调趋势,即随着rev越大,badrate越大,由此可认为rev变量有效,因此我们进一步对rev变量进行精细分箱,使得badrate趋势更明显。
rev变量最终的分箱结果如下:

这里只是简单地讲述rev变量的分箱与分析,具体详细的过程见《rev变量-分箱过程》
对所有变量都进行分箱以及分析,并选择出有效的变量来作为入模变量。
在本例中,所有变量与badRate都有明显的关系,因此10个变量都有效。
完成分箱后,将入模变量根据分箱逻辑,将原始数据转换为分箱数据,转换后的分箱数据如下:

这里我们只是简单的描述和举例说明变量的分析、选择和分析,具体过程参考《评分卡实例-变量分箱》。
上面我们已经将数据转换为分箱了,进一步地,还需要把分箱组号转换为WOE值。
将组号转换为WOE值的转换过程如下:
Step-1. 计算特征WOE映射表
特征WOE映射表记录特征的各个分组对应的WOE值,
特征X第i组的WOE值计算如下:
其中,
:坏样本总个数
:好样本总个数
:坏样本且X为第i组的个数
: 好样本且X为第i组的个数
Step-2. 将特征取值转换为WOE值
按照特征WOE映射表,把特征的组别,映射成对应的WOE值即可。
下面我们以特征rev转换WOE为例,说明转WOE的过程。
1. 计算rev的WOE映射表
即计算每个组别对应的WOE值,结果如下:

解说:从rev变量的分箱中可知,坏样本1383个,好样本18617个,而第0组坏样本102个,好样本6188个,因此,第0组的woe为:
2. 将特征取值转换为WOE值
将特征rev的组别按特征WOE映射表,转换成woe数据,转换前后的所有变量数据示例如下:
把组号转为WOE,主要是因为组号与badrate不是单调的线性关系。虽然正规则流程里,必须将特征取值转为WOE值,但在实际项目中,有些老同学并没有转WOE,老饼对这现象总结如下:
1. 可转可不转WOE:如果在分箱阶段,组别是按badRate大小进行编号的,转WOE对模型最终的效果不是非常明显,有些人会忽略WOE转换,主要嫌麻烦。
2. 必须转WOE:如果分箱阶段,不按badRate大小进行编号,此时badRate与组别不是单调关系,这时,必须做WOE转换,转WOE能使变量与badRate成单调关系。
总的来说,我们先选出与客户质量强相关的变量作为入模变量,并将变量分箱离散化,然后再把数据转为WOE,以上工作就形成了评分卡的建模数据,下张文章我们再讲解如何使用这些数据进行建模。
评论