老饼讲解:一步一步上手学习
接上文《评分卡实例-评分卡制作》
上节我们已经制作出了评分卡,但模型投产时,需要设定一个评分阈值,将低于评分阈值的客户拒绝。评分阈值怎么设定?一般会先统计阈值表,再参考评分阈值表的相关信息后,结合业务而设定。
这节我们就来说说如何统计评分阈值表,以及如何依据评分阈值表来确定阈值。
本节讲解阈值表是什么以及如何统计阈值表。
评分阈值表由建模样本的评分统计得到,它展示了不同评分阈值给业务带来的效果,阈值表的统计需要先算出各个样本的评分,再统计每个分段的统计信息。
阈值表的统计字段如下:

下面我们来说说阈值表各列是什么意思,以第一行为例,可以这样理解:[610,620)这个分段共有7个客户,其中好客户2个,坏客户5个,如果以<620分为阈值,则拒绝(损失)7个客户,即损失0.04%客户,其中2个好客户,5个坏客户,损失的2个好客户占总好客户的0.01%,剔除的5个坏客户占总坏客户的0.36%。[610,620)分段的坏客户占比为71.43%,以<620分为阈值时损失客户中坏客户占71.43%。
阈值表的每个字段,都是为了评估以xx分为阈值时,所带来的损失(筛掉的好客户)和收益(筛掉的坏客户),上面是一些常用字段,也可设计更多字段,但一般上面的字段就够用了,从下面的例子,我们会看到它们的具体作用。
本节讲解如何通过评分阈值表来确定评分卡的评分阈值。
评分阈值表主要用于辅助确定评分阈值,但直接看评分阈值表往往无从下手,所以一般先通过关键信息缩小阈值范围,再进一步选择阈值。
确定评分阈值的具体步骤如下:
1. 通过关键信息确定下限。
2. 通过关键信息确定上限。
3. 在上下限之间评估综合信息进一步确定阈值。
好了,下面我们通过具体的实例来说说是怎么通过阈值表来确定评分阈值的。
一、确定阈值下限
阈值下限的下限一般通过"本组坏客户占比"来确定。
以分组[750-760)为例,“本组坏客户占比”的意义如下:该字段说明[750-760)分的客户有467个,其中坏客户82个,占比17.56%(1/6),说明该组大概切掉6个客户,会有一个是坏的,根据效益均衡点,先在"本组坏客户占比"这一列确定阈值的下限,例如,放款5个好客户的收益,才能抵掉1个坏客户的损失,说明17.56%这一分数是均衡点,阈值不能比760更小,否则损失大于收益。
二、确定阈值上限
阈值的上限一般通过“损失的客户%”来确定。
例如:阈值取800时损失31.59%客户(6318个),如果损失客户过多,业务上不能接受,则阈值不能比800大。
三、确定最终阈值
最终阈值的确定需要评估各个综合信息,在阈值上限和下限之间权衡,哪个阈值的综合信息最适合当前业务,就取哪个作为最终的评分阈值。
假设我们最终设定的阈值为770,那么:
损失的客户%:14.17%(2834个)
损失客户中坏客户占比:31.05%
剔除坏客户%:63.63%
也就是说,使用<770作为阈值,则会损失14.17%左右的客户,这部分客户里有31.05%是坏客户,使用模型后,坏客户能减少63.63%。
本节展示评分卡的分数分布图,以及讲解分数分布图的意义。
最后的最后,画出评分卡的分数分布图,可以进一步了解模型的合理性与客群的特征:

从分数分布图可看出,分数越低,坏客户的占比越高,当分数790时,基本坏客户的占比就较少了,同时,从分布图还可以看出,整体客户质量是较好的,分数基本集中在高分段,高分段只有个别客户坏账,这可以理解为意外情况导致的逾期。(备注:在实践中,分数分布图一般呈现为正态分布或二八分布,在本例中就是二八分布。)
至此,整个评分卡建模工作就已经完成了!
阈值表就是按分段来计算相关的字段,来展示该分数作为阈值时模型所带来的业务信息,一般按上面所说的字段统计就可以了,然后再判断用什么分数来作为阈值更适合,阈值表几乎是评分卡必备的一个统计表,但建模时往往只需要统计出阈值表就可以了,具体阈值交由业务人员去决定。
评论