互金时代如何定制个性化信用评分模型

互金时代如何定制个性化信用评分模型

相比起传统金融机构,互联网金融以个性化服务取胜,由此也催生了各类深耕细分市场的互联网金融公司。不过这样一来,原来传统风控的玩法和经验,已经很难满足新兴互联网金融公司的风控需求。

如何用最为省时省力的方法,打造契合自身业务特色的个性化风控模型?如何利用先进的大数据手段,迅速提高风控的效率,降低风控的成本?今天就让处座来介绍一下吧。

风控将成互联网金融发展“痛点”

在经历2013至2014年的爆发式发展之后,互联网金融行业逐渐步入到规范化发展阶段。2016年是行业监管之年,随着互联网金融行业监管政策的不断明朗、规范,风险管理已经成为互联网金融发展中的“痛点”。只有做好了风险管理,才能使企业在新一轮的洗牌中脱颖而出,获得更广阔的市场和更优质的用户。

>>>>

我们先看两个例子:

案例一

A公司以前做的是有抵押贷款,但现在转向消费贷款领域,由于没有历史数据,没有办法建立合理的风险管理模型。

案例二

B公司设计了一款产品,主要客群为在校大学生,对于这个产品,普通的风控模型显然不适用,但建立新的模型又需要非常大的人力、物力。

对于一般的互联网金融公司来说,他们服务的时间不长,服务的人群有限,获取的信息无法形成海量数据,而国内拥有成体量数据的公司只有寥寥几家,且各个公司间壁垒明显,“数据孤岛”效应尤为显著。作为纯粹的第三方机构,获取大量数据的成本很高,仅凭一己之力建立一套风控体系显然需要花费大量的人力、物力、精力,还不一定做的好。为了解决这一问题,就需要各公司之间相互合作,积极打破“数据孤岛”格局,联合建立风险管理模型。

打造个性化定制大数据风险控制模型

独立开发契合自身业务特色的个性化风控模型,对于单个公司而言并非易事。最大的难点在于,你可能缺乏用户的历史违约数据,或者你的客户数据中,缺少金融相关维度数据。如果有一个数据平台,可以帮你补充相应客群的金融标签和历史违约数据,会不会解决广大互金企业个性化风控需求的好方法呢?为了达到上述要求,至少需要做以下六步工作:

1

数据提取

首先,我们挑选出与客户相关的变量,进一步生成许多衍生变量,作为建模平台的变量池。根据业务知识,将变量据业务知识,分为履约能力、身份特征、行为特征、消费偏好、失信风险、成长潜力、社交信用等七个维度。

2

相似客群的数据补充

大多数P2P等小贷公司的客户样本偏少,为了更好地建立模型,使用更多的变量。我们将自有样本,通过先进的抽样方法和相似客群匹配算法,添加一部分进入客户的样本数据中,打破“数据孤岛”。

3

缺失值填充

由于未采集到或者客户在某一个业务序列没数据等原因,建模采用的数据可能会有缺失。对此,我们采用不同的缺失值填充方法分别对不同类型变量的缺失值进行填充,包括中值填充,函数关系填充和贝叶斯网络填充等。为后续的建模工作带来了极大的便利。

4

特征工程

特征工程主要包含两部分内容,一是生成衍生变量,二是进行变量筛选。在模型训练时,可以使用通过不同方法产生的特征集,最终将得到的模型进行混合。衍生变量主要通过特征的实际业务意义,或通过机器学习算法以及主成分分析法来制作。生成完衍生变量之后,还需要对变量进行筛选,以提高模型的效率,防止过拟合现象。最终的特征变量集是以业务为主导,技术为支撑形成的集合体。

5

建立决策模型

利用专业的数据处理方法进行数据分析,量化数据指标,融合最前沿的大数据决策技术进行数据建模。包括递归决策树(GBDT),深度学习,贝叶斯网络等。针对不同的客户需求,研究定制化模型组合,以混合模型的方式建立最终的模型输出,并定期对模型进行优化,提升模型的预测能力。

6

模型调优

对于随机森林和GBDT模型,我们需要在极大的参数空间中选出最优的参数,其参数种类从大类上主要分为两种:Tree-specific参数和Boosting参数。Tree-specific参数是指那些影响单棵树的参数,Boosting参数是指影响全局的集成算法的参数。调整这些参数可以在防止过拟合的前提下提高模型的精度。

检验定制化联合建模的效果

为了验证模型的效果,处座邀请了某小贷公司进行了检验,用数据来检测一下该实际效果。

一般来说,客群由产品特点决定。比如,一个短期借贷场景的产品,所对应的客群往往风险较高,他们可能临时资金周转不开,仅需要1个月周期以内的借款。该小贷公司将他们经营产品对应的客群提供给我们,我们补充该客群的历史违约数据和金融属性标签,并进行建模。使用各维度变量数目的比例如下:

通常来说,不同类别的数据在预测违约风险上的表现能力不同。下图展示了各个维度变量对违约标签的显著性(以KS为指标)。

可以看到,在变量数目最多的履约能力和身份特征维度上,该模型的表现最好,这同时也与认为个人身份信息、金融信息在预测违约上是最为重要信息的业内共识相符。

在建模过程中,我们依次测试了逻辑回归、随机森林、迭代决策树(GBDT)以及组合模型(Stack Model)。各模型在原始数据和融合数据上的KS值如下图:

从KS值来看,组合模型在融合集团自有数据以后,相对于完全使用客户数据,模型表现出19%的显著提升;在融合数据上,组合模型相对于表现最好的单一模型——递归决策树——也有10%的提升。使用融合数据和组合模型的AUC表现提升与KS提升一致。

此外,我们不仅综合评价客户信用,还分别计算了反映不同方面信用情况的七大子维度评分,并计算不同子维度评分之间的相关性。下图给出子维度评分相关性的热力图,颜色越深,数值越高,说明两个变量的线性相关性越强。可以看到,子维度之间有一定相关性,但是相关性并不强,依然有相互补充的价值。

业务真实场景跟踪验证

依据上述模型测试效果,我们将该模型应用到某大型P2P网贷公司,并选取2016年4月份的真实违约客户和正常客户做模型验证,图中粉色区域代表违约客户,蓝色区域代表正常客户。可以看到,模型区分度在真实环境中KS值仍然可以达到0.21以上,从而验证模型的鲁棒性非常高。

总 结

从我们实际跟踪效果来看,上述模型在实际业务场景中取得了非常显著的效果提升,主要原因归结于两个方面:一是大数据信息的丰富性,我们充分利用了自有数据信息,能极大的补充客户自身缺乏的数据。二是先进的建模分析方法,确保把这些大数据融合,并提炼业务场景真正需要的预测特征,从而能够非常精准预测目标客群的风险信用。

处座这里也不卖关子了,上述模型就是前海征信推出的建模平台,想体验一下拥有智能风控专家相伴的便利吗?在微信后台给小编留言吧!

音符

为了促进行业从业人员之间的学习和交流,目前已开通1.贷前风控、2.反欺诈、3.贷后不良资产处置、4.FinTech大数据技术等四个微信交流群。扫描下列二维码,添加管理员为好友,并回复管理员你所关注喜好领域的关键词,管理员将拉你进入对应的500人交流群。

▼▼▼

关于“朝阳35处”

我们是来自于前海征信的专业大数据挖掘团队。我们不仅是数据科学家,更是数据玩客。我们既用数据挖掘技术解决专业领域的问题,也喜欢在各个领域寻找数据的乐趣,以好玩易懂的方式给大家提供新鲜靠谱的内容。我们会每周定时推送一篇原创干货,欢迎大家踊跃点击本帖底部的“写留言”与我们和广大大数据爱好者进行实时沟通和讨论。

时间: 2024-12-09 06:27:49

互金时代如何定制个性化信用评分模型的相关文章

互联网征信中的信用评分模型(转)

摘要:面向小微商户以及个人消费的小微信贷是当前互联网金融的重要发展方向,并且正在经历爆发式增长.在这个增长过程中,如何在没有实物抵押的情况下,通过互联网大数据分析实现快速准确征信是一个非常重要的问题.为此,不同的数据来源将各显神通地为信用评估提供依据.本文将通过一个真实的案例出发,进行分析和探讨,针对用户历史行为数据建立信用评分模型,并通过该模型改进信用评估的预测效果. 关键词: 小微信贷:互联网征信:信用评分:Logistic回归模型 一.业务介绍 行业介绍 小微信贷,我们定义为金额较小,并且

3分钟搞明白信用评分卡模型&模型验证

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型. 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户:则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明. Woe公式如下: A

笔记︱金融风险控制基础常识——巴塞尔协议+信用评分卡Fico信用分

一.巴塞尔协议--银行业监管手册 巴塞尔协议Ⅲ是全球银行业监管的标杆,其出台必将引发国际金融监管准则的调整和重组,影响银行的经营模式和发展战略.在巴塞尔协议Ⅲ出台之际,中国银监会及时推出了四大监管工具,包括资本要求.杠杆率.拨备率和流动性要求四大方面,及时进行了跟进,构成了未来一段时期中国银行业监管的新框架. 该报告主要有四部分内容: 1.资本的分类: 2.风险权重的计算标准: 3.1992年资本与资产的标准比例和过渡期的实施安排: 4.各国监管当局自由决定的范围. 体现协议核心思想的是前两项.

评分模型的检验方法和标准通常有:K-S指标、交换曲线、AR值、Gini数等。例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成功的应用价值。K-S值越大,表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。

例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成功的应用价值.K-S值越大,表示评分模型能够将"好客户"."坏客户"区分开来的程度越大. 信用评分模型介绍(一) 2016-08-28 蒋靓 Larry Jiang Larry的风险模型分享与探讨 引言:对于信用评分模型,很多朋友或多或少有所了解,这里做一般性的介绍,并分享自己的多年从业经验.这边短文主要包括:信用评分模型,自变量的生成.筛选.

信用评分卡模型开发中双峰分布原因及解决方案

信用评分卡模型开发中双峰分布原因及解决方案 文: 郑旻圻 邹钰 刘巧莉 转自:  数信互融 在信用评分卡模型开发过程中,正态性是检验模型信用评分分布是否有效的一个重要指标.正常情况下,标准的正态分布是单峰分布:但是在实际建模过程中,会遇到信用评分分布出现双峰的情况. 双峰分布出现时,数据规律一致性的假设被打破,我们需要从不同的角度考察其出现双峰分布的原因,对模型加以调整,使之准确地反映业务和数据中的规律,以便模型准确适用. 根据为数十家互联网金融企业建立评分卡模型的实践经验,我们总结了一些造成双

信用评分卡模型入门(智能算法)

信用评分卡模型入门 2016-07-26 智能算法 智能算法 一.背景介绍:   4.数据整理(数据清理过程) 大量取样的数据要真正最后进入模型,必须经过数据整理.在数据处理时应注意检查数据的逻辑性.区分"数据缺失"和"0".根据逻辑推断某些值.寻找反常数据.评估是否真实.可以通过求最小值.最大值和平均值的方法,初步验证抽样数据是否随机.是否具有代表性. 常用清理过程包含:缺失值分析处理.单变量异常分析(LOF分析处理或聚类分析) 5.变量选择 变量选择要同时具有数

信用评分怎么算出来的?偷偷给你一份客户信用等级简易评估模型.......

信用评分怎么算出来的?偷偷给你一份客户信用等级简易评估模型....... 2016-06-20 信用知识公益平台 对于像葵花君这样的菜鸟而言,心中始终萦绕着一个硕大的问号 信用等级到底是怎么评估出来的? 难道是夜观星象么? 今天偷偷给你一份客户信用等级简易评估模型....... 客户的信用等级简易评估办法,就是依据一系列实测指标,经评估打分综合划分出客户的信用等级. 为计算方便采用满分为10分制,根据对征信资料的审查核实,对每一项指标打分后综合计算平均值,最后再加权计算综合得分. 一 .主体资格

信用卡评分模型(R语言)

信用卡评分 一.数据准备 1. 问题的准备 ? 目标:要完成一个评分卡,通过预测某人在未来两年内将会经历财务危机的可能性来提高信用评分的效果,帮助贷款人做出最好的决策. ? 背景: – 银行在市场经济中起到至关重要的作用.他们决定谁在什么条件下可以得到融资,并且可以创造或打破投资决策.而市场.社会,以及个人和企业都需要获得贷款. – 信用评分算法,对默认可能性进行猜测,这是银行用来判断贷款是否应该被授予的方法. ? 准备: – 首先是基于个人借贷的场景,确定"违约"的定义: 根据新的B

信用评分卡 (part 1 of 7)

python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 信用危机时代的信用评分卡 Credit Scorecards in the Age of Credit Crisis This incident took place