信用评分卡模型开发中双峰分布原因及解决方案

信用评分卡模型开发中双峰分布原因及解决方案

文: 郑旻圻 邹钰 刘巧莉

转自:  数信互融

在信用评分卡模型开发过程中,正态性是检验模型信用评分分布是否有效的一个重要指标。正常情况下,标准的正态分布是单峰分布;但是在实际建模过程中,会遇到信用评分分布出现双峰的情况。

双峰分布出现时,数据规律一致性的假设被打破,我们需要从不同的角度考察其出现双峰分布的原因,对模型加以调整,使之准确地反映业务和数据中的规律,以便模型准确适用。

根据为数十家互联网金融企业建立评分卡模型的实践经验,我们总结了一些造成双峰分布的因素。

本文将从业务模式、录入系统变更和变量这三个角度,对信用评分分布的双峰情况加以分析并解释其出现的原因。通过实际案例,通过具体解决方案的分享,与读者共同探讨交流讨论。

1

参考模型:违约模型(先息后本和等本等息的混合模型)

解释角度:业务模式(或者叫好坏客户定义模式)

根据项目初期的好坏客户定义,评分分布如图1所示。其中出现了双峰分布。

图1 信用评分分布直方图

考虑到好坏客户定义与实际业务模式相差较大且坏客户占比过低,采取重新定义好坏客户。新的评分分布直方图如图2所示。

图2 更改好坏客户定义后的信用评分分布直方图

可见,通过更改好坏客户的重新定义,解决了评分分布出现双峰的问题。

2

参考模型:违约模型(先息后本和等本等息的混合模型)

解释角度:录入系统变更

评分分布如图3、图4所示,可见在两个模型中均出现了双峰问题。

图3 先息后本模型的信用评分分布直方图

图4 等本等息模型的信用评分分布直方图

通过对上述两个信用评分卡模型中的变量进行比较与分析后,我们发现其中一个共有变量,即配偶知晓贷款,在两个模型中的得分都很低。于是我们在原始数据中对该变量进行深入分析,发现该变量在2014年12月27日之后就没有缺失值了。同时,我们也发现居住类别变量在该时间点之后也没有缺失值了。于是我们判断在该时间点该P2P公司发生过较大变动。经过跟对方的接触,证实在该时间点该P2P公司确实做过有关申请界面、必填字段、风控把控等的相关调整。就配偶知晓贷款这个变量而言,在录入系统调整之前有缺失选项;在调整之后,没有缺失选项,系统默认值为“是”。

由于录入系统发生了较大的更改,更改所在时间点前后的数据是不同的,我们决定采用该时间点之后的数据再次建模。

新的评分分布直方图如图5、图6所示:

图5 新的先息后本模型的信用评分分布直方图

图6 新的等本等息模型的信用评分分布直方图

通过发现录入系统的变更,我们采用变更后的数据进行建模,从而将双峰分布重新调整为单峰分布。

3

参考模型:申请模型

解释角度:变量

信用评分分布直方图如图7所示,发现出现双峰情况。

图7信用评分分布直方图

 

发现出现双峰,我们考虑是否因为某个变量对变量预测有重要作用,造成该变量分数分布对总体信用评分分布有重要影响。为找出这个变量,在计算总体评分时,按照模型变量的IV值,从大到小依次删除变量,观察删除某个变量后信用评分的分布情况。发现当删除银行卡月均流水变量后,信用评分分布的直方图如图8所示,发现双峰消失,由此确认双峰问题是由于银行卡月均流水变量引起的。

图8 删除银行卡月均流水变量后信用评分分布直方图

由于删除银行卡月均流水变量后的信用评分分布并不是标准的正态分布或者近似正态分布,从而进一步分析:统计银行卡月均流水变量各分类下的分数和对应的样本量。发现在频数相等的情况下,流水小于等于39000元和大于39000元两类分值相差较大。于是继续考虑是否因为银行卡月均流水变量的小于等于39000一类分数过低,与其它分类的分数相差较大,使得总体信用评分不满足标准正态性。

因此将样本按照银行卡月均流水变量大于39000、和小于等于39000分成两类后,计算各自总体分数的分布,分别如图9、图10所示。

图9 银行卡月均流水变量大于39000的信用评分直方图

图10 银行卡月均流水变量小于等于39000的信用评分直方图

 

从图9和图10中可发现,按照银行卡月均流水变量是否大于或者小于等于39000划分样本后,两个数据集下的信用评分分布皆展示了一定的正态性,图10中430和450分之间的高峰,正是总体评分分布出现小高峰的成因。

但是通过多次调整银行卡月均流水变量的分组,双峰问题依然无法解决,分析是否由于未知的外界因素引起,导致银行卡月均流水在[0,39000]和39000+两个范围内,样本之间存在较大的不同。

我们接下来观察是否由于进件时间不同引起:通过验证发现银行卡月均流水变量各类别,均分布在进件时间从2014年9月19日到2015年5月15日的区间内,并不存在显著的不同。

进一步考虑,是否由于借贷产品的不同而引起:

进过进一步分析发现,在相同产品类别下,银行卡月均流水变量的频数分布与坏客户占比分布并不存在显著的不同。

由此确定,产生双峰的外界因素并不是进件时间和借贷产品的不同,而是可能当银行卡月均流水较小时(低于39000),业务上对成功获贷的要求更加严格,从而使得这个区间的样本坏客户占比很高,从而该区间的信用评分很低,最终导致信用评分分布出现双峰。

当对银行卡月均流水变量进行相应分数调整后,其信用评分分布如图11所示。

图11 调整银行卡月均流水变量后的信用评分直方图

从而,通过对变量分数的调整,我们将双峰分布重新调整为单峰分布。

在P2P行业告诉发展的今天,互联网金融企业的管理系统和风控策略也不断更新完善,对应的内部系统不断完善的情况下,业务模式,系统升级,人员变动等都会造成数据中有隐含的规律发生变化,数据一致性的假设被打破。数据建模人员首先要与对方确认每一次业务、系统、人员等变更的时间节点,以便做出预判,并对可能的数据变动进行逻辑验证。

数据确定后,还需确定模型个数,尽可能保持客群和产品的统一性,避免将不同的客户群体或者不同的产品混淆在一个模型之中。当确定好数据采取时间、模型个数之后,要结合业务模式以及客户需求给出好坏客户定义,以便于模型开发的顺利进行。

在完成信用评分卡的开发之后,如果评分分布出现双峰,我们要从各个方面查明原因,比如对方业务模式是否曾经有过较大变动、录入系统是否更新过、好坏客户的定义是否合适、变量分组是否合理等等。对于不同业务背景的模型,我们要采取针对有效的方式进行查验。希望各位在看完本文后能够对双峰分布有一个直观的理解,而实际工作中遇到的情况是千变万化的,具体情况还需要从实际角度出发,根据相关业务背景查明原因。

时间: 2024-10-14 05:25:23

信用评分卡模型开发中双峰分布原因及解决方案的相关文章

3分钟搞明白信用评分卡模型&模型验证

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型. 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户:则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明. Woe公式如下: A

信用评分卡模型入门(智能算法)

信用评分卡模型入门 2016-07-26 智能算法 智能算法 一.背景介绍:   4.数据整理(数据清理过程) 大量取样的数据要真正最后进入模型,必须经过数据整理.在数据处理时应注意检查数据的逻辑性.区分"数据缺失"和"0".根据逻辑推断某些值.寻找反常数据.评估是否真实.可以通过求最小值.最大值和平均值的方法,初步验证抽样数据是否随机.是否具有代表性. 常用清理过程包含:缺失值分析处理.单变量异常分析(LOF分析处理或聚类分析) 5.变量选择 变量选择要同时具有数

评分卡模型剖析之一(woe、IV、ROC、信息熵)

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型. 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户:则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明. Woe公式如下: A

信用评分卡 (part 1 of 7)

python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 信用危机时代的信用评分卡 Credit Scorecards in the Age of Credit Crisis This incident took place

(信贷风控十六)组合评分卡模型

python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share https://blog.csdn.net/LuYi_WeiLin/article/details/88624268转载 组合评分卡模型 本篇文章主要总结以下内容

尚未整理【风控】互联网金融-构建评分卡模型部分知识点

模型部署方式:将模型转为PMML文件或者框架.服务器方式做接口调用. 特点是:笔数多,单笔金额小,数据维度丰富 信用评分做准入,行为评分做调额,贷中管理,或者提前催收 催收评分卡,可以预测M1转到M2的概率,M2转到M3的概率,催收回款率等 观察期与特征变量选择:一定要选择贷前就能获取的特征,一般围绕客户的还款能力.还款意愿.稳定性和多头借贷展开,还要兼顾自己的产品客群定位.用户体验.数据成本.比如产品是农户贷,那么社保.公积金.网银工资流水就是不需要获取的特征.如果产品目标是电商小商户,则电商

信用评分卡 (part 3of 7)

python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 原文地址:https://www.cnblogs.com/webRobot/p/9736382.html

信用评分卡 (part 6 of 7)

python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 原文地址:https://www.cnblogs.com/webRobot/p/9736402.html

笔记︱金融风险控制基础常识——巴塞尔协议+信用评分卡Fico信用分

一.巴塞尔协议--银行业监管手册 巴塞尔协议Ⅲ是全球银行业监管的标杆,其出台必将引发国际金融监管准则的调整和重组,影响银行的经营模式和发展战略.在巴塞尔协议Ⅲ出台之际,中国银监会及时推出了四大监管工具,包括资本要求.杠杆率.拨备率和流动性要求四大方面,及时进行了跟进,构成了未来一段时期中国银行业监管的新框架. 该报告主要有四部分内容: 1.资本的分类: 2.风险权重的计算标准: 3.1992年资本与资产的标准比例和过渡期的实施安排: 4.各国监管当局自由决定的范围. 体现协议核心思想的是前两项.