反思K-S指标(KPMG大数据挖掘)

评估信用评级模型,反思K-S指标

2015-12-05 KPMG大数据团队 KPMG大数据挖掘

“信用评级”的概念听起来可以十分直截了当。比如一天早上你接到电话,有个熟人跟你借钱,而你将在半睡半醒间迅速做出决定:借,还是不借。在灵光闪现的一秒里,你或许考虑了对方的脾气秉性、经济实力、家庭住址、种种黑白历史……但最终,你面对的是一道只有两个选项的单选题,并需要承担选择的后果,这就是一种最简单的“评级”。商业银行对待申请借贷的客户也类似。为了控制不良贷款、避免损失,银行需要提前对客户进行信用评级。当然,主观评价客户缺乏操作性,这时就需要建立某种信用评级模型,利用数据将客户划分为“好客户”和“坏客户”,即守信客户和违约客户。

信用评级模型已经有了五六十年的实践应用历史,也在不断发展的过程中逐渐建立了相对较全面的评价体系。衡量信用评级模型是否强大的关键,是其区分好坏客户并进行正确排序的能力。根据业内经验,我们可以通过考察模型对客户按风险排序的结果与实际发生违约的结果之间的一致性来判断模型的准确性。在有效的情况下,模型会赋予那些容易违约的客户低评分值,同时赋予那些不易违约的客户赋予评分值,从而体现模型的区分能力:区分能力越高则说明模型越好,反之则说明模型越差。

根据这一原理,在信用评分模型的评价准则中,K-S统计量由于计算简便、易于理解,而成为少数几个被广泛使用的评价指标之一。本文将介绍K-S统计量及其存在的缺陷,并提出“AUKS统计量”作为一种新的评价标准,希望能为银行的信用评级业务及其他相关实践提供新思路。

K-S统计量来源于两样本Kolmogorov-Smirnov检验,这是一种非参数检验,用于检验两个一元概率分布是否相同。K-S统计量度量了两个分布之间的最大垂直距离,即

两样本K-S检验主要考察两个样本是否服从同一个分布,这一点被借鉴为信用评级模型的评判标准。信用评价模型的输出结果可认为是事件发生的概率。如果坏客户预测值的经验分布显著区别于好客户预测值的经验分布,说明信用评级模型分派给了好客户和坏客户显著不同的估计值。K-S统计量就等于好客户和坏客户的的经验分布间的最大距离。如果两个分布显著不同,则可以认为模型的K-S统计量足够区分申请人是否会成为坏客户。如下图所示:

如何评估一个信用评级模型的效果呢?我们必须选择一个验证样本,这个样本不同于创建模型的建模样本。和建模样本一样,验证样本中的一条观测代表一个客户,其中的因变量Y和输入变量X的值都是已知的。在验证模型的时候,首先会用待检验的模型来预测验证样本中每一个客户的或者信用评分。如果以K-S统计量作为模型优劣的评判标准,这个值就可以根据验证样本中每个客户的或者评分计算出来。把这些或者评分从低到高排序,然后等分成若干个组(通常为20组或者10组),每一组都会包含好客户和坏客户,因为模型的错误分类是不可能避免的,任何一个评分模型不可能给所有的坏客户绝对的低分所有的好客户绝对的高分。但是,一个好的模型能够保证坏客户的评分相对比较低而好客户的评分相对比较高,即好的模型能保证有更多的和谐对。上图中,虚线表示好客户的的经验分布,实线表示坏客户的的经验分布。两个经验分布之间的最大距离就是K-S统计量。K-S统计量的值越大,两个区别越显著,评分模型给出的评分越合理。因此,K-S统计量可以作为信用评分模型的评判标准,在实际操作中也较为方便,SAS中的NPAR1WAYProcedure和EM模块及R语言中的基本软件包stats都可以用来计算该指标。

然而,K-S统计量也存在相当显著的缺陷。K-S统计量仅仅从一个点来衡量两个分布的差异,其稳定性必然不足。我们曾设计验证方案,参考另一个常用指标AUC统计量,对样本量5960的验证样本进行多次抽样,并用每一个抽取出来的样本做模型验证计算K-S统计量和另一常用指标AUC统计量来检查它们的稳定性。最终,我们发现,K-S统计量的变异系数远远大于AUC统计量的变异系数。

要增加稳定性,最好的方法莫过于将距离变为面积,将局部推广到整体。为此,我们设计了一个新统计量:K-S曲线下的面积(Area under the K-S curve),可以简写为AUKS。

,可以假设,则

与K-S统计量相比,AUKS统计量的优点在于:从整个评分的取值域而不是一个点来检验模型的优劣,具有更好的稳定性,对样本量的依赖程度相对较低。我们用两个统计量对评价模型进行了验证,在模拟实验中,与K-S统计量相比,AUKS统计量始终有更加稳定的均值、更小的标准差和更小的变异系数,作为信用评分模型的评价指标具有更好的稳定性。

在信用评分领域的多年实践工作中,业内已经创造并总结了一套较为全面的评价标准,这些标准互为补充,大体能保证信用评价模型的应用价值。然而,这些标准、指标和统计量仍存在缺陷,需要我们根据实际情况不断加以修正、改进,继续完善这一评价标准体系。相信AUKS统计量将成为一种有价值的新指标。

时间: 2024-10-16 12:54:52

反思K-S指标(KPMG大数据挖掘)的相关文章

顶尖大数据挖掘实战平台(TipDM-H8)产品白皮书

    顶尖大数据挖掘实战平台 (TipDM-H8)           产  品  说  明  书 广州泰迪智能科技有限公司 版权所有 地址: 广州市经济技术开发区科学城232号 网址: http://www.tipdm.com 邮箱: [email protected] 热线: 40068-40020 企业QQ:40068-40020 邮编: 510663 电话: (020)82039399 目  录 1                     引言.....................

移动互联网时代的大数据挖掘和精准营销

中国的这些年喜欢搞概念,什么云计算大数据啊,国家支持,专家鼓吹,各大会议论坛精彩纷呈,热闹过后发现还是默默地在用国外的技术和平台,就如同PC操作系统没有我们的份,手机操作系统也没有我们的份,虽然我们是世界上电脑和手机拥有量最多并且人们最喜欢玩手机的国家,感觉我们的学术专家和行业大佬们就只会扯蛋,扯多了会痛,痛定思痛,痛何如哉!吃饱喝足后还是继续扯蛋.相当可悲,若大个中国,真正心平静气地去做研究和开发的专家或企业应该是极少的或者很快就挂掉了,我们都太心急太功利太浮躁,政策是支持的,目标是巨大的,口

大数据分析- 基于Hadoop/Mahout的大数据挖掘

随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的需求.目前对大数据的分析工具,首选的是Hadoop平台.Hadoop在可伸缩性.健壮性.计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台. 一.培训对象 1,系统架构师.系统分析师.高级程序员.资深开发人员. 2,牵涉到大数据处理的数据中心运行.规划.设计负责人. 3

零基础学习大数据挖掘的33个知识点整理

下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下. 数据.信息和知识是广义数据表现的不同形式. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识 web挖掘研究的主要流派有:Web结构挖掘.Web使用挖掘.Web内容挖掘 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义.数据抽取.数据预处理..数据挖掘以及模式评估等基本阶段. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知

零基础的程序员们,关于大数据挖掘的知识点,都在这里了

下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下. 1. 数据.信息和知识是广义数据表现的不同形式. 2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识 3. web挖掘研究的主要流派有:Web结构挖掘.Web使用挖掘.Web内容挖掘 4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义.数据抽取.数据预处理..数据挖掘以及模式评估等基本阶段. 5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联

大数据挖掘的本质和意义

近期,国外黑客利用俄罗斯影子经纪人曝光的美国国家安全局(NSA)若干利用smb协议(445端口) 漏洞而制作的勒索软件,席卷全球并把国内许多大学的大四毕业生论文给加密了.该勒索软件实际是一种蠕虫病毒,它首先利用邮件附件等方式感染一台主机,然后它会自动扫描局域网内开放了445端口的主机,一旦发现,就利用内置的ms17010(俗称"蓝色永恒")的漏洞,把这些机子也感染.紧接着将所有的文档资料用特殊算法加密,是之无法正常打开,只有按要求提供赎金,黑客才会远程解密该电脑. 然而这篇文章并不想讨

安防大数据挖掘的利刃:模式识别和深度学习技术

人工智能的概念提出已经很多年,但最近一次大热是在“人机大战”战胜世界围棋高手李世石的AlphaGo.同样,近几年安防行业热门的深度学习和模式识别的概念也频频出现在公众的视野当中,那么它们是如何应用在安防领域中?目前最前沿的应用又有哪些?以下将为您一一解答. 安防大数据挖掘 平安城市从2010年在全国推广至今已经6年,目前各地平安城市建设即将进入扩容改建期,需要更加综合与智能的整体解决方案.公共安防已不再局限于扩张视频监控覆盖广度和密度以及清晰度,而是由扩密度的传统安防时代向注重视频大数据挖掘.使

31页PPT:基于Spark的移动大数据挖掘

31页PPT:基于Spark的移动大数据挖掘 数盟11.16 Data Science Meetup(DSM北京)分享:基于Spark的移动大数据挖掘分享嘉宾:张夏天(TalkingData首席数据科学家) @张夏天_机器学习 内容提要: TalkingData移动数据服务现状和挑战 为什么选择Spark TalkingData移动大数据挖掘 应用.系统和算法 Spark不是全部 以下为详细内容:

突破R内存限制的企业级大数据挖掘利器:Microsoft R Server 快速上手

R语言是一款非常优秀的数据挖掘工具,拥有顶尖的数据处理.数据挖掘课数据可视化.是数据从业者必备的一把利器.但是其基于内存的诟病也一直被人所嫌弃,虽然这几年很多优秀的扩展包极大提升了R语言的性能,但是在面对企业级大数据挖掘面前,也会显得力不从心. 现在我们也不用担心R语言这个问题了,自从微软收购了商业版R以后,就进行了很多的整合和优化,之前只面向高校学生免费试用,现在,我们企业界的数据从业者也可以免费下载Microsoft R Server ,利用MRS处理大数据,MRS对开源R100%兼容,能充