kaggle-制作评分卡

https://blog.csdn.net/zpxcod007/article/details/80118580

制作A卡,申请评分卡

数据集:15万个样本,特征

主要预处理手段:缺失值,异常值,样本不平衡的处理,划分数据集,做分箱处理(离散化),将样本的每个特征都映射到WOE空间

之后建模,这里采用:逻辑回归,决策树和随机森林建模,在auc-roc指标上,随机森林表现最优秀,这里选取了随机森林做后续的制作评分卡(利用得到变量系数并自行拟定了评分标准建立了评分卡。)。

建立评分卡:

以上论文资料得到:

a=log(p_good/P_bad)

Score = offset + factor * log(odds)

在建立标准评分卡之前,我们需要选取几个评分卡参数:基础分值、 PDO(比率翻倍的分值)和好坏比。 这里, 我们取600分为基础分值,PDO为20 (每高20分好坏比翻一倍),好坏比取20。

原文地址:https://www.cnblogs.com/ivyharding/p/11505071.html

时间: 2024-08-30 13:55:42

kaggle-制作评分卡的相关文章

信用评分卡 (part 1 of 7)

python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 信用危机时代的信用评分卡 Credit Scorecards in the Age of Credit Crisis This incident took place

申请评分卡分析及建模

邮箱:dengzy95@163.com   欢迎交流建议 项目简介 信用评分技术是一种应用统计模型,其作用是对贷款申请人做风险评估分值的方法.在互金公司等各种贷款业务机构中,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判.评分卡主要分为三类A卡(申请评分卡).B卡(行为评分卡).C卡(贷后评分卡).我们主要讨论的是A卡即申请评分卡,用于贷前审批阶段对借款申请人的量化评估: 评分卡原理: 申请评分卡是一种统计模型,它可基于对当前申请人的各项资料进行评估并给出一个分数,该评分能定

Lending Club 数据做数据分析&评分卡

一 :项目目的 研究Lending Club 贷款的风险特征,并提出建模方案. 二:数据获取 数据集来自Lending Club平台发生借贷的业务数据,2017年第一季度,具体数据集可以从Lending Club官网下载,需要先用邮箱注册一个账号. 三:数据探索  1.导入需要用到的工具 import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.style.use('ggplot') #风格设置 impo

制作SD卡img文件,并扩容

/**************************************************************************************** * 制作SD卡img文件,并扩容 * 说明: * 主要是为了简便以后的系统烧录操作,通过制作SD卡烧录img文件,可以完成将系统dd到任何 * SD卡上,加上resize2fs这个命令对SD最后一个分区进行扩容,该功能是从树莓派上借鉴过来的. * * 2017-2-26 深圳 南山平山村 曾剑锋 ***********

以German信用数据为例的logistics regression算法在评分卡上的实践

以德国信用数据为例,用logistict regression算法做信用评分卡原理性实现,因此并未考虑feature selection. 第一步:导入必要的库 import pandas as pd import numpy as np from sklearn.cross_validation import train_test_split 第二步:导入数据 german = pd.read_csv('D:/CreditDatasets/german.data', sep=' ', head

3分钟搞明白信用评分卡模型&模型验证

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型. 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户:则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明. Woe公式如下: A

信用评分中的评分卡中的A卡、B卡和C卡

A卡(Application score card)申请评分卡 B卡(Behavior score card)行为评分卡 C卡(Collection score card)催收评分卡 评分机制的区别在于: 1.使用的时间不同.分别侧重贷前.贷中.贷后: 2.数据要求不同.A卡一般可做贷款0-1年的信用分析,B卡则是在申请人有了一定行为后,有了较大数据进行的分析,一般为3-5年,C卡则对数据要求更大,需加入催收后客户反应等属性数据. 3.每种评分卡的模型会不一样.在A卡中常用的有逻辑回归,AHP等

信用评分卡模型开发中双峰分布原因及解决方案

信用评分卡模型开发中双峰分布原因及解决方案 文: 郑旻圻 邹钰 刘巧莉 转自:  数信互融 在信用评分卡模型开发过程中,正态性是检验模型信用评分分布是否有效的一个重要指标.正常情况下,标准的正态分布是单峰分布:但是在实际建模过程中,会遇到信用评分分布出现双峰的情况. 双峰分布出现时,数据规律一致性的假设被打破,我们需要从不同的角度考察其出现双峰分布的原因,对模型加以调整,使之准确地反映业务和数据中的规律,以便模型准确适用. 根据为数十家互联网金融企业建立评分卡模型的实践经验,我们总结了一些造成双

信用评分卡模型入门(智能算法)

信用评分卡模型入门 2016-07-26 智能算法 智能算法 一.背景介绍:   4.数据整理(数据清理过程) 大量取样的数据要真正最后进入模型,必须经过数据整理.在数据处理时应注意检查数据的逻辑性.区分"数据缺失"和"0".根据逻辑推断某些值.寻找反常数据.评估是否真实.可以通过求最小值.最大值和平均值的方法,初步验证抽样数据是否随机.是否具有代表性. 常用清理过程包含:缺失值分析处理.单变量异常分析(LOF分析处理或聚类分析) 5.变量选择 变量选择要同时具有数