基于卡方分箱的评分卡建模

卡方分布—chi-square distribution, χ2-distribution:

若k个独立的随机变量Z1, Z2,..., Zk 满足标准正态分布 N(0,1) , 则这k个随机变量的平方和:

为服从自由度为k的卡方分布,记作:

 或者 

卡方检验—χ2检验是以χ2分布为基础的一种假设检验方法,主要用于分类变量之间的独立性检验:

  基本思想是根据样本数据推断总体分布与期望分布是否有显著性差异,或者推断两个分类变量是否相关或者独立。一般可以设原假设为 :观察频数与期望频数没有差异,或者两个变量相互独立不相关。实际应用中,我们先假设原假设成立,计算出卡方值,卡方表示观察值与理论值间的偏离程度。

  设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差,卡方值计算公式:

    (i=1,2,3,…,k)

  Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ei等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。

  由卡方的计算公式可知,当观察频数与期望频数完全一致时,χ2值为0;观察频数与期望频数越接近,两者之间的差异越小,χ2值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,χ2值越大。换言之,大的χ2值表明观察频数远离期望频数,即表明远离假设。小的χ2值表明观察频数接近期望频数,接近假设。因此,χ2是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果χ2值“小”,研究者就倾向于不拒绝H0;如果χ2值大,就倾向于拒绝H0。至于χ2在每个具体研究中究竟要大到什么程度才能拒绝H0,则要借助于卡方分布求出所对应的P值来确定。

卡方检验实例:

  某医院对某种病症的患者使用了A,B两种不同的疗法,结果如表1,问两种疗法有无差别?

组别 有效  无效  合计  有效率(%)
 A组  19  24  43  44.2
 B组  34  10  44  77.3
合计 53 34 87 60.9

可以计算出各格内的期望频数:

第1行1列: 43×53/87=26.2

第1行2列: 43×34/87=16.8

第2行1列: 44×53/87=26.8

第2行2列: 44×34/87=17.2

  先建立原假设:A、B两种疗法没有区别。根据卡方值的计算公式,计算:卡方值=10.01。得到卡方值以后,接下来需要查询卡方分布表来判断p值,从而做出接受或拒绝原假设的决定。自由度k=(行数-1)*(列数-1)。 这里k=1.然后看卡方分布的临界概率表,我们可以用如下代码生成:

import numpy as np
from scipy.stats import chi2
import pandas as pd

percents = [ 0.95, 0.90, 0.5,0.1, 0.05, 0.025, 0.01, 0.005]
df =pd.DataFrame(np.array([chi2.isf(percents, df=i) for i in range(1, 30)]))

df.columns = percents
df.index   = df.index+1
pd.set_option(‘precision‘, 3)

df

查表自由度为1,p=0.05的卡方值为3.841,而此例卡方值10.01>3.841,因此 p < 0.05,说明原假设在0.05的显著性水平下是可以拒绝的。也就是说,原假设不成立。

 ChiMerge分箱算法:

它主要包括两个阶段:初始化阶段和自底向上的合并阶段。

初始化阶段:

首先按照属性值的大小进行排序(对于非连续特征,需要先做数值转换,比如转为坏人率,然后排序),然后每个属性值单独作为一组。

合并的阶段:

(1)对每一对相邻的组,计算卡方值;

(2)根据计算的卡方值,对其中最小的一对邻组合并为一组;

(3)不断重复(1),(2)直到计算出的卡方值都不低于事先设定的阈值,或者分组数达到一定的条件(如最小分组数5,最大分组数8)。

  下图是著名的鸢尾花数据集sepal-length属性值的分组及相邻组的卡方值。最左侧是属性值,中间3列是class的频数,最右是卡方值。这个分箱是以卡方阈值1.4的结果。可以看出,最小的组为[6.7,7.0),它的卡方值是1.5。

如果进一步提高阈值,如设置为4.6,那么以上分箱还将继续合并,最终的分箱如下图:

卡方分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。

原文地址:https://www.cnblogs.com/wzdLY/p/9649101.html

时间: 2024-10-12 20:00:46

基于卡方分箱的评分卡建模的相关文章

[转]卡方分箱中卡方值的计算

<div class="show-content-free"> <p>关于卡方分箱,网上有很多文章,但几乎没有文章介绍分箱时相邻区间卡方值计算的方法,而本文在介绍卡方分箱的同时,重点介绍了相邻区间卡方值的计算方法.通过本文,希望大家能对卡方分箱有清楚透彻的认识.</p> 分箱是什么 分箱是将连续的变量离散化,将多状态的离散变量合并成少状态.这里要注意的是,不仅仅是连续变量要分箱,状态多的离散变量也需要分箱,之前接触过公司内特征工程的项目,里边就将超过

评分卡系列(二):特征工程

文章很长,理论和实现都讲的很细,大家可以先收藏,有时间再看. 在上一篇文章中,我们对LendingClub的数据有了一个大致的了解,这次我将带大家把10万多条.145个字段的原始数据一步一步处理成建模所需输入的数据. 我们先按照上次一样导入数据,这里我将逾期15天以上的都当作正类 import pandas as pd import numpy as np import reportgen as rpt import matplotlib.pyplot as plt import seaborn

评分卡系列(一):讲讲评分系统的构建

作者:JSong 时间:2017.12 我想通过几篇文章,给评分卡的全流程一个中等粒度的介绍.另外我的本职工作不是消费金融的数据分析,所以本系列的文章会偏技术一些. 数据分析工具主要有Python3及pandas.sklearn等科学计算包,另外也会有自己的工具包reportgen. 信用记录数据采用Lending Club的公开数据,特征数目和样本数都比较理想.大家可以到官网(www.lendingclub.com)下载,或者关注我的微信公众号后台回复:?数据集 ? 下载(含变量介绍和中文对照

尚未整理【风控】互联网金融-构建评分卡模型部分知识点

模型部署方式:将模型转为PMML文件或者框架.服务器方式做接口调用. 特点是:笔数多,单笔金额小,数据维度丰富 信用评分做准入,行为评分做调额,贷中管理,或者提前催收 催收评分卡,可以预测M1转到M2的概率,M2转到M3的概率,催收回款率等 观察期与特征变量选择:一定要选择贷前就能获取的特征,一般围绕客户的还款能力.还款意愿.稳定性和多头借贷展开,还要兼顾自己的产品客群定位.用户体验.数据成本.比如产品是农户贷,那么社保.公积金.网银工资流水就是不需要获取的特征.如果产品目标是电商小商户,则电商

Lending Club 数据做数据分析&amp;评分卡

一 :项目目的 研究Lending Club 贷款的风险特征,并提出建模方案. 二:数据获取 数据集来自Lending Club平台发生借贷的业务数据,2017年第一季度,具体数据集可以从Lending Club官网下载,需要先用邮箱注册一个账号. 三:数据探索  1.导入需要用到的工具 import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.style.use('ggplot') #风格设置 impo

汽车金融评分卡

 项目目的:利用车贷金融数据建立评分卡,并尝试多次迭代观察不同行为对模型,以及建模中间过程产生哪些影响. 首先是标准化导入需要使用的工具 import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.style.use("ggplot")#风格设置 import seaborn as sns sns.set_style("whitegrid") %matplotlib inlin

申请评分卡分析及建模

邮箱:dengzy95@163.com   欢迎交流建议 项目简介 信用评分技术是一种应用统计模型,其作用是对贷款申请人做风险评估分值的方法.在互金公司等各种贷款业务机构中,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判.评分卡主要分为三类A卡(申请评分卡).B卡(行为评分卡).C卡(贷后评分卡).我们主要讨论的是A卡即申请评分卡,用于贷前审批阶段对借款申请人的量化评估: 评分卡原理: 申请评分卡是一种统计模型,它可基于对当前申请人的各项资料进行评估并给出一个分数,该评分能定

kaggle-制作评分卡

https://blog.csdn.net/zpxcod007/article/details/80118580 制作A卡,申请评分卡 数据集:15万个样本,特征 主要预处理手段:缺失值,异常值,样本不平衡的处理,划分数据集,做分箱处理(离散化),将样本的每个特征都映射到WOE空间 之后建模,这里采用:逻辑回归,决策树和随机森林建模,在auc-roc指标上,随机森林表现最优秀,这里选取了随机森林做后续的制作评分卡(利用得到变量系数并自行拟定了评分标准建立了评分卡.). 建立评分卡: 以上论文资料

你身边的女神吸烟吗?——卡方分析帮你找到答案

隔壁班的女神长得漂亮,人见人爱,但你总在她身上闻到一阵烟味--女神吸烟的可能性有多高? 众所周知,我们身边的一些男同胞们常常会吸烟减压,而女生则相对少见.那么吸烟的女生数量真的比男生少吗?性别跟吸烟是否存在相关性? 本着学术的严谨,小编决定搜集一波数据,来一次严谨的分析. 搜集男性和女性的吸烟数据后,计算数据的p值,发现其呈现出显著性,说明两组数据具有显著性差异,可以进行卡方分析进一步探究. 卡方分析 卡方分析(又称为交叉表分析,列联表分析,Pearson卡方分析等),常被用于分析两组分类数据之