评分模型的检验方法和标准通常有:K-S指标、交换曲线、AR值、Gini数等。例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成功的应用价值。K-S值越大,表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。

例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成功的应用价值。K-S值越大,表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。

信用评分模型介绍(一)

2016-08-28 蒋靓 Larry Jiang Larry的风险模型分享与探讨

引言:对于信用评分模型,很多朋友或多或少有所了解,这里做一般性的介绍,并分享自己的多年从业经验。这边短文主要包括:信用评分模型,自变量的生成、筛选、分档和转换,及常用有监督学习模型。

 

信用评分模型

信用评分模型是一种有监督的学习模型(Supervised Learning),数据由一群自变量X和对应的因变量y构成。传统零售信用模型中,X大致分为客户的基本信息(年龄、性别、职业、学位等),财务信息(收入,每月生活消费,每月信贷还款额等),产品信息(LTV,信用卡类别,个人贷款用途等),征信信息(前6个月被查询次数,前6个信用卡最大利用率,未结清贷款数等);而一般取值0-1因变量y可以定义为在未来12个月是否出现欠款90天等.

经验备注:在大数据下,很多互联网公司对个人的评估不再局限于以上几种信息,而是根据更为广泛的数据源对个人进行更全面的刻画,故有称之为客户画像。数据维度会考虑个人在社会上留下的任何数据,如手机使用行为,理财行为,社交圈,网购行为,旅游行为等等等等。大家的各方面数据其实都在被不同的公司和不同的APP收集。。。

自变量的生成

自变量是信用风险的来源,除了考虑直接收集的变量,信用评分建模过程中往往需要建模人员产生更多的衍生变量。这部分工作要分析人员的直觉、长期经验的积累和数据挖掘技术的应用。大家可以通过京东和支付宝的评分一窥其自变量的维度:芝麻信用分为5个维度:身份特质,履约能力,信用历史,人脉关系,行为偏好;小白信用分也分为5个维度:身份,资产,关系,履约,偏好。

经验备注:现在越来越多的模型技术被应用于信用模型,但是个人觉得无论高级模型还是初级模型,最为重要的是更广泛的数据和产生更多更具有预测能力的自变量。

自变量的筛选

自变量一旦丰富了起来,就涉及到有效变量的筛选,大致可根据一下几个原则或方法:变量的直观意义(是否跟y有关),变量的单调性或合理性,未来是否可以获取以便模型可实施,变量的区分能力(IV),变量间相关性(变量聚类),变量缺失率,分档之后的稳定性等等。

经验备注:对于区分能力太强的变量,或缺失率很大的变量,不建议直接放入模型,可以考虑做成规则或者做成最后模型的调整。在大数据下,人们经常强调自变量与因变量的相关关系,应用于精准性要求不高的营销模型问题不大。而对于精准度要求极高的信用评分模型,相关关系的应用值得推敲。

自变量分档和转换

为了保持模型的稳定性,信用模型一般对自变量进行分档,比如根据风险不同把年龄分成几档。这样每档需要一个值来代表这段的自变量输入,这就是变量的转换,常见的有WOE和Logit转换。通过转换后不仅实现了稳定性要求,也克服不同变量间刻度不统一的问题,还克服回归中缺失值的填充问题。

经验备注:如果分档过粗糙,不但会降低单个变量的预测能力,也会造成最终评分集中度过高的问题。解决方法:可以考虑每档用线性插值来代替常数,也可以寻找更多能区分分数集中样本的自变量放入模型。

有监督学习模型介绍

目前比较流行的模型主要有以下几种(以后分享会逐一介绍):

  1. Logistic 回归(Logistic Regression)
  2. 决策树(Decision Tree)
  3. 支持向量机(Support Vector Machine)
  4. 人工神经网络(Artificial Neural Network)
  5. 生存分析模型(Survival Analysis Model)

经验备注:除此上述之外,还有些高级方法或算法:集成方法(Ensemble Method)(例如随机森林(Random Forrest),Boosting,AdaBoost),深度学习方法(Deep Learning),随机梯度下降算法(Stochastic Gradient Descent)等。

时间: 2024-08-07 21:16:59

评分模型的检验方法和标准通常有:K-S指标、交换曲线、AR值、Gini数等。例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成功的应用价值。K-S值越大,表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。的相关文章

走在大数据的边缘 基于Spark的机器学习-智能客户系统项目实战(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

C# 绘制窗体客户非客户区要用WM_PAINT和WM_NCPAINT

窗体分为两部分:客户区(Client area)和非客户区(Non-Client area) WM_PAINT消息.OnPaint()方法.GetDC()API函数都是处理窗体客户区绘制的   而标题栏处于非客户区中,所以WM_PAINT消息.OnPaint()方法.GetDC()API函数都用不上   GetWindowDC()是获得整个窗体的画布句柄(Device Context翻译为:设备清单,我习惯称为画布句柄),包括非客户区   GDI的绘制都离不开DC,因为操作系统必须知道你要在什么

大数据运算模型 MapReduce 原理

大数据运算模型 MapReduce 原理 2016-01-24 杜亦舒 MapReduce 是一个大数据集合的并行运算模型,由google提出,现在流行的hadoop中也使用了MapReduce作为计算模型 MapReduce 通俗解释 图书馆要清点图书数量,有10个书架,管理员为了加快统计速度,找来了10个同学,每个同学负责统计一个书架的图书数量 张同学 统计 书架1王同学 统计 书架2刘同学 统计 书架3...... 过了一会儿,10个同学陆续到管理员这汇报自己的统计数字,管理员把各个数字加

实验16-14 请在testdb中:查找每个客户(包括没有订单的客户)的客户

testdb是产品销售数据库,请在testdb中:查找每个客户(包括没有订单的客户)的客户编号.名称.订单日期.订货金额,其中订单日期格式为yyyy-mm-dd,按客户编号排序,同一客户再按订单金额降序排序输出. select customer.cust_id,cust_name,CONVERT(varchar(10),order_date,121)as order_date,tot_amt from customer left outer join sales on (customer.cus

武汉城市大数据评分体系商业化应用探讨

1.在底层数据指标基础上,根据实际生活场景,抽象提取新指标,发展为武房特色指标. 根据之前市场部门的反馈,普遍遇到一个情况.客户说"你们这些数据百度上也有啊".在底层数据层面上,目前确实难以做到拥有独有的数据源或者渠道.鉴于此,可以在这些共有的数据上,抽象提取凝练出新的概念或者指标,既能更好地展现城市中的某一面,又能在短期内做到一枝独秀. 2.每一项分指数作为产品对待,以产品运营的思维去拓展.应用该指数. 综合多方面因素(数据获取.数据全面性.指标创新等方面)先挑选出两三个分指数如环境

海量数据查询关系型数据库存储大数据,要点就是:简单存储、分区分表、高效索引、批量写入

海量数据查询 https://www.cnblogs.com/nnhy/p/DbForBigData.html 相当一部分大数据分析处理的原始数据来自关系型数据库,处理结果也存放在关系型数据库中.原因在于超过99%的软件系统采用传统的关系型数据库,大家对它们很熟悉,用起来得心应手. 在我们正式的大数据团队,数仓(数据仓库Hive+HBase)的数据收集同样来自Oracle或MySql,处理后的统计结果和明细,尽管保存在Hive中,但也会定时推送到Oracle/MySql,供前台系统读取展示,生成

大数据风控模型

基本流程: 数据收集.数据建模.构建数据画像.风险定价. 数据收集:网络行为数据.企业服务范围内行为数据.用户内容偏好数据.用户交易数据.授权数据源.第三方数据源.合作方数据源.公开数据源. 数据建模:文本挖掘.自然语言处理.机器学习.预测算法.聚类算法. 数据画像:基本属性.购买能力.行为特征.兴趣爱好.心理特征.社交网络. 风险定价:申请模型.行为监控模型.违约模型.催收策略模型. 目前国内90%以上的建模团队使用logistic回归做评分卡,少数使用决策树. 应用案例: 1.欺诈风险用到的

游标+递归 查询 客户 子客户 查询财务信用

USE [CRM01] GO /****** Object: StoredProcedure [dbo].[Account3YearsTrade] Script Date: 07/15/2015 08:34:37 ******/ SET ANSI_NULLS ON GO SET QUOTED_IDENTIFIER ON GO -- Batch submitted through debugger: SQLQuery1.sql|7|0|C:\Users\crmqas2\AppData\Local\

java打印出某一指定路径下的文件夹内的所有子文件夹和文件,并区分开来

public class printoutFile { public static void main(String[] args) { printFile(new File("D:\\test"),1); } public static void printFile(File file,int sub) { if (file.isFile()) { System.out.println("您给定的是一个文件"); // 判断给定目录是否是一个合法的目录,如果不是,