python计算IV值及使用

更多风控建模、大数据分析等内容请关注公众号《大数据风控的一点一滴》

在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,python计算IV值的代码如下:

def CalcIV(Xvar, Yvar):
   N_0  = np.sum(Yvar==0)
   N_1 = np.sum(Yvar==1)
   N_0_group = np.zeros(np.unique(Xvar).shape)
   N_1_group = np.zeros(np.unique(Xvar).shape)
   for i in range(len(np.unique(Xvar))):
       N_0_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 0)].count()
       N_1_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 1)].count()
   iv = np.sum((N_0_group/N_0 - N_1_group/N_1) * np.log((N_0_group/N_0)/(N_1_group/N_1)))
   return  iv   

def caliv_batch(df, Kvar, Yvar):
   df_Xvar = df.drop([Kvar, Yvar], axis=1)
   ivlist = []
   for col in df_Xvar.columns:
       iv = CalcIV(df[col], df[Yvar])
       ivlist.append(iv)
   names = list(df_Xvar.columns)
   iv_df = pd.DataFrame({‘Var‘: names, ‘Iv‘: ivlist}, columns=[‘Var‘, ‘Iv‘])

   return iv_df

其中,df是分箱后的数据集,Kvar是主键,Yvar是y变量(0是好,1是坏)。代码运行结果如下:

原文地址:http://blog.51cto.com/6093943/2120626

时间: 2024-11-08 20:21:21

python计算IV值及使用的相关文章

Python计算KDJ值

Python计算KDJ值,但计算的结果跟通达信软件有一定的差别. import talib as ta import tushare as ts import pandas as pd dw = ts.get_k_data("601069") print(dw) dw = dw[60:] dw.index = range(len(dw)) dw['slowk'], dw['slowd'] = ta.STOCH(dw['high'].values, dw['low'].values, d

第四周(1):利用Python计算π的值,并显示进度条

用Python计算圆周率pi并用进度条提示进度 一 计算公式: 二 实现代码 (1) import math from tqdm import tqdm import time total,s,n,t=0.0,1,1.0,1.0 while(math.fabs(t)>=1e-6): total+=t n+=2 s=-s t=s/n k=total*4 print("π值是{:.10f} 运行时间为{:.4f}秒".format(k,time.clock())) for i in

Python计算KS值并绘制KS曲线

更多风控建模.大数据分析等内容请关注公众号<大数据风控的一点一滴> python实现KS曲线,相关使用方法请参考上篇博客-R语言实现KS曲线 代码如下: ####################### PlotKS ########################## def PlotKS(preds, labels, n, asc): # preds is score: asc=1 # preds is prob: asc=0 pred = preds # 预测值 bad = labels

python 在调用时计算默认值

大家都知道python的默认值是在函数定义时计算出来的, 也就是说默认值只会计算一次, 之后函数调用时, 如果参数没有给出,同一个值会赋值给变量, 这会导致, 如果我们想要一个list默认值, 新手通常这么写: def foo(a=[]): a.append(3) print a 其实是错误的,两次调用会这样的结果: [3] [3, 3] 其实应该这么写 def baz(a=None): a = a or [] a.append(3) print a 两次调用输出以下结果: [3] [3] 这样

数学之路-python计算实战(8)-机器视觉-图像二值化

二值化 hreshold Applies a fixed-level threshold to each array element. C++: double threshold(InputArray src, OutputArray dst, double thresh, doublemaxval, int type) Python: cv2.threshold(src, thresh, maxval, type[, dst]) → retval, dst C: double cvThresh

python计算文件的md5值

前言 最近要开发一个基于python的合并文件夹/目录的程序,本来的想法是基于修改时间的比较,即判断文件有没有改变,比较两个文件的修改时间即可.这个想法在windows的pc端下测试没有问题. 但是当把一个文件从pc端复制到优盘时出现了一个问题,复制到优盘的文件比pc端的文件慢了两秒钟! 这里我用的复制函数是 shutil.copy2(),理论上它会把修改时间和最后访问时间也复制过来1,但是实际情况并不是完全相同. 详细情况我在segmentfault里提出了问题:为什么将一个文件从pc中复制到

数学之路-python计算实战(17)-机器视觉-滤波去噪(中值滤波)

Blurs an image using the median filter. C++: void medianBlur(InputArray src, OutputArray dst, int ksize) Python: cv2.medianBlur(src, ksize[, dst]) → dst Parameters: src – input 1-, 3-, or 4-channel image; when ksize is 3 or 5, the image depth should

如何用python计算临界值(critical value)和p值(p value)(scipy)

z检验: 计算临界值:scipy.stats.norm.ppf(level_of_confidence) 计算p值:scipy.stats.norm.sf(abs(z_score)) 或 1-scipy.stats.norm.cdf(abs(z_score))---左尾或右尾,双尾检验需在此基础上乘以2 计算临界值例子: from scipy.stats import norm critical1=norm.ppf(0.95) #左尾或右尾 critical2=norm.ppf(0.975) #

数学之路-python计算实战(18)-机器视觉-滤波去噪(双边滤波与高斯滤波 )

高斯滤波就是对整幅图像进行加权平均的过程,每一个像素点的值,都由其本身和邻域内的其他像素值经过加权平均后得到.高斯滤波的具体操作是:用一个模板(或称卷积.掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值. #滤波去噪 lbimg=cv2.GaussianBlur(newimg,(3,3),1.8) cv2.imshow('src',newimg) cv2.imshow('dst',lbimg) cv2.waitKey() cv2.destroyAllW