尚未整理【风控】互联网金融-构建评分卡模型部分知识点

  1. 模型部署方式:将模型转为PMML文件或者框架、服务器方式做接口调用。
  2. 特点是:笔数多,单笔金额小,数据维度丰富
  3. 信用评分做准入,行为评分做调额,贷中管理,或者提前催收
  4. 催收评分卡,可以预测M1转到M2的概率,M2转到M3的概率,催收回款率等
  5. 观察期与特征变量选择:一定要选择贷前就能获取的特征,一般围绕客户的还款能力、还款意愿、稳定性和多头借贷展开,还要兼顾自己的产品客群定位、用户体验、数据成本。比如产品是农户贷,那么社保、公积金、网银工资流水就是不需要获取的特征。如果产品目标是电商小商户,则电商数据就是非常有用的特征。
  6. 表现期与好坏客户定义:表现期是指放款日期至放款后逾期率开始稳定的时间段。好坏客户根据各信贷产品的应用场景不同而定,可以通过迁徙率设定(预期五天到M1,M1到M2,…一段时期的迁徙比例来决定y的0 and 1)
  7. 现金贷表现期一般一个月;消金3-6个月;信用卡是12个月
  8. 逻辑回归模型服从的前提假设:

    ①自变量不能相关,即排除自相关性,还有共线性;②变量一定要显著。③变量要独立同分布。

    所以我们要进行共线性筛查,显著性筛查,相关性筛查,才能选择出入模变量。

   9. 逻辑回归创建评分卡模型核心步骤:

    a)       变量分箱,可以排除异常值的影响,分法有等宽、等频、人工指定分箱、C4.5决策树、卡方分箱。

    b)      WOE编码。作用:排除量纲影响。计算方式是每箱好样本比例与坏样本比例的比值的自然对数。

    c)       IV值,又称为信息浓度。计算公式是每箱好样本比例与坏样本比例的差值,再乘以对应的WOE值,一般选择IV>=0.02的变量。

    d)      共线性、相关性、显著性检验。

    e)       计算每个变量对应切分点的分数。Score=A+B*ln(odds),y=logist(p)=ln(p/(1-p))=b+aX=b+coewoe

  10. 建模样本:负样本占总样本比例5%以上就行,最好是10%以上。

  11. 变量分为连续变量与分类变量的依据是: 连续变量的水平种类在10种以上,分类变量的水平种类在10种以下。

  12. 字符型分类变量转整型 为什么模型容易调用?        

  13. 字符型分类变量转为数值型方式:哑变量,WOE编码,坏样本率。

  14. 自动化分箱(最优分箱):KS分箱,卡方分箱,决策树分箱。手动分箱:WOE(ln(odds))。对样本集最优,但会忽略可解释性。

  15. 评分卡计算分数公式

  16. 评分卡模型建立完成,需要检验准确性和稳定性,还要监控

  17. 分箱,数据处理,特征衍生,有效性,分数稳定性,变量稳定性,模型调优可能比不上业务上的逻辑变量。

原文地址:https://www.cnblogs.com/likedata/p/11186609.html

时间: 2024-11-09 12:02:54

尚未整理【风控】互联网金融-构建评分卡模型部分知识点的相关文章

信用评分卡模型开发中双峰分布原因及解决方案

信用评分卡模型开发中双峰分布原因及解决方案 文: 郑旻圻 邹钰 刘巧莉 转自:  数信互融 在信用评分卡模型开发过程中,正态性是检验模型信用评分分布是否有效的一个重要指标.正常情况下,标准的正态分布是单峰分布:但是在实际建模过程中,会遇到信用评分分布出现双峰的情况. 双峰分布出现时,数据规律一致性的假设被打破,我们需要从不同的角度考察其出现双峰分布的原因,对模型加以调整,使之准确地反映业务和数据中的规律,以便模型准确适用. 根据为数十家互联网金融企业建立评分卡模型的实践经验,我们总结了一些造成双

(信贷风控十六)组合评分卡模型

python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share https://blog.csdn.net/LuYi_WeiLin/article/details/88624268转载 组合评分卡模型 本篇文章主要总结以下内容

3分钟搞明白信用评分卡模型&模型验证

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型. 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户:则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明. Woe公式如下: A

信用评分卡模型入门(智能算法)

信用评分卡模型入门 2016-07-26 智能算法 智能算法 一.背景介绍:   4.数据整理(数据清理过程) 大量取样的数据要真正最后进入模型,必须经过数据整理.在数据处理时应注意检查数据的逻辑性.区分"数据缺失"和"0".根据逻辑推断某些值.寻找反常数据.评估是否真实.可以通过求最小值.最大值和平均值的方法,初步验证抽样数据是否随机.是否具有代表性. 常用清理过程包含:缺失值分析处理.单变量异常分析(LOF分析处理或聚类分析) 5.变量选择 变量选择要同时具有数

评分卡模型剖析之一(woe、IV、ROC、信息熵)

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型. 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户:则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明. Woe公式如下: A

评分卡系列(一):讲讲评分系统的构建

作者:JSong 时间:2017.12 我想通过几篇文章,给评分卡的全流程一个中等粒度的介绍.另外我的本职工作不是消费金融的数据分析,所以本系列的文章会偏技术一些. 数据分析工具主要有Python3及pandas.sklearn等科学计算包,另外也会有自己的工具包reportgen. 信用记录数据采用Lending Club的公开数据,特征数目和样本数都比较理想.大家可以到官网(www.lendingclub.com)下载,或者关注我的微信公众号后台回复:?数据集 ? 下载(含变量介绍和中文对照

互联网金融做大数据风控的九种维度

在互联网金融迅猛发展的背景下,风险控制问题已然成为行业焦点,基于大数据的风控模型正在成为互联网金融领域的热门战场.那么,大数据风控到底是怎么一回事呢?与传统风控相比,它又是怎样来进行风险识别的呢?本文对此进行了探讨. 大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐和精准广告投放,另外一个是大数据风控,典型的场景是互联网金融的大数据风控. 金融的本质是风险管理,风控是所有金融业务的核心.典型的金融借贷业务例如抵押贷款.消费贷款.P2P.供应链金融.以及票据融资都

互联网金融系统技术沙龙:小米风控实践

导读:最近上映的 魔兽世界有一句话"光明源于黑暗,黑暗涌现光明",和互联网金融的安全风控领域非常相似.在 6 月 19 日,微博商业产品部联合小米支付等金融技术团队策划了首届互联网金融系统沙龙,围绕在互联网金融过程中碰到系统安全等问题与业界展开分享及交流.本文是邓文俊在沙龙上的演讲,授权高可用架构首发. 邓文俊,小米高级研发工程师,2013 年加入小米,参与了数据后台,风控系统,支付等系统的研发工作. 我来自小米支付,今天分享的主题是小米风控实践.为什么选风控这个题目?其实在我看来风控

互联网金融十种运作模式

互联网金融十种运作模式 2017-07-07 牛行长 互联网金融是依托于虚拟支付平台.云计算.社交网络以及搜索引擎等互联网工具而产生的新兴金融模式,让理财行为从传统的柜台操作过渡到虚拟的互联网上.互联网金融模式主要包括:第三方支付平台模式.P2P网络小额信贷模式.基于大数据的金融服务平台模式.众筹模式.网络保险模式.金融理财产品网络销售等. 近年来,互联网金融通过各种方式,在不知不觉中成了我们每天必谈的话题,从"余额宝"开始发展至今,它已经影响到我们日常生活的方方面面:微信支付.支付宝