Python计算KS值并绘制KS曲线

更多风控建模、大数据分析等内容请关注公众号《大数据风控的一点一滴》

python实现KS曲线,相关使用方法请参考上篇博客-R语言实现KS曲线

代码如下:

####################### PlotKS ##########################
def PlotKS(preds, labels, n, asc):

    # preds is score: asc=1
    # preds is prob: asc=0

    pred = preds  # 预测值
    bad = labels  # 取1为bad, 0为good
    ksds = DataFrame({‘bad‘: bad, ‘pred‘: pred})
    ksds[‘good‘] = 1 - ksds.bad

    if asc == 1:
        ksds1 = ksds.sort_values(by=[‘pred‘, ‘bad‘], ascending=[True, True])
    elif asc == 0:
        ksds1 = ksds.sort_values(by=[‘pred‘, ‘bad‘], ascending=[False, True])
    ksds1.index = range(len(ksds1.pred))
    ksds1[‘cumsum_good1‘] = 1.0*ksds1.good.cumsum()/sum(ksds1.good)
    ksds1[‘cumsum_bad1‘] = 1.0*ksds1.bad.cumsum()/sum(ksds1.bad)

    if asc == 1:
        ksds2 = ksds.sort_values(by=[‘pred‘, ‘bad‘], ascending=[True, False])
    elif asc == 0:
        ksds2 = ksds.sort_values(by=[‘pred‘, ‘bad‘], ascending=[False, False])
    ksds2.index = range(len(ksds2.pred))
    ksds2[‘cumsum_good2‘] = 1.0*ksds2.good.cumsum()/sum(ksds2.good)
    ksds2[‘cumsum_bad2‘] = 1.0*ksds2.bad.cumsum()/sum(ksds2.bad)

    # ksds1 ksds2 -> average
    ksds = ksds1[[‘cumsum_good1‘, ‘cumsum_bad1‘]]
    ksds[‘cumsum_good2‘] = ksds2[‘cumsum_good2‘]
    ksds[‘cumsum_bad2‘] = ksds2[‘cumsum_bad2‘]
    ksds[‘cumsum_good‘] = (ksds[‘cumsum_good1‘] + ksds[‘cumsum_good2‘])/2
    ksds[‘cumsum_bad‘] = (ksds[‘cumsum_bad1‘] + ksds[‘cumsum_bad2‘])/2

    # ks
    ksds[‘ks‘] = ksds[‘cumsum_bad‘] - ksds[‘cumsum_good‘]
    ksds[‘tile0‘] = range(1, len(ksds.ks) + 1)
    ksds[‘tile‘] = 1.0*ksds[‘tile0‘]/len(ksds[‘tile0‘])

    qe = list(np.arange(0, 1, 1.0/n))
    qe.append(1)
    qe = qe[1:]

    ks_index = Series(ksds.index)
    ks_index = ks_index.quantile(q = qe)
    ks_index = np.ceil(ks_index).astype(int)
    ks_index = list(ks_index)

    ksds = ksds.loc[ks_index]
    ksds = ksds[[‘tile‘, ‘cumsum_good‘, ‘cumsum_bad‘, ‘ks‘]]
    ksds0 = np.array([[0, 0, 0, 0]])
    ksds = np.concatenate([ksds0, ksds], axis=0)
    ksds = DataFrame(ksds, columns=[‘tile‘, ‘cumsum_good‘, ‘cumsum_bad‘, ‘ks‘])

    ks_value = ksds.ks.max()
    ks_pop = ksds.tile[ksds.ks.idxmax()]
    print (‘ks_value is ‘ + str(np.round(ks_value, 4)) + ‘ at pop = ‘ + str(np.round(ks_pop, 4)))

    # chart
    plt.plot(ksds.tile, ksds.cumsum_good, label=‘cum_good‘,
                         color=‘blue‘, linestyle=‘-‘, linewidth=2)

    plt.plot(ksds.tile, ksds.cumsum_bad, label=‘cum_bad‘,
                        color=‘red‘, linestyle=‘-‘, linewidth=2)

    plt.plot(ksds.tile, ksds.ks, label=‘ks‘,
                   color=‘green‘, linestyle=‘-‘, linewidth=2)

    plt.axvline(ks_pop, color=‘gray‘, linestyle=‘--‘)
    plt.axhline(ks_value, color=‘green‘, linestyle=‘--‘)
    plt.axhline(ksds.loc[ksds.ks.idxmax(), ‘cumsum_good‘], color=‘blue‘, linestyle=‘--‘)
    plt.axhline(ksds.loc[ksds.ks.idxmax(),‘cumsum_bad‘], color=‘red‘, linestyle=‘--‘)
    plt.title(‘KS=%s ‘ %np.round(ks_value, 4) +
                ‘at Pop=%s‘ %np.round(ks_pop, 4), fontsize=15)

    return ksds
####################### over ##########################

作图效果如下:

原文地址:http://blog.51cto.com/6093943/2120625

时间: 2024-11-01 19:55:06

Python计算KS值并绘制KS曲线的相关文章

python计算IV值及使用

更多风控建模.大数据分析等内容请关注公众号<大数据风控的一点一滴> 在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,python计算IV值的代码如下: def CalcIV(Xvar, Yvar): N_0 = np.sum(Yvar==0) N_1 = np.sum(Yvar==1) N_0_group = np.zeros(np.unique(Xvar).shape) N_1_group = np.zeros(np.unique(Xvar).shape) f

Python计算KDJ值

Python计算KDJ值,但计算的结果跟通达信软件有一定的差别. import talib as ta import tushare as ts import pandas as pd dw = ts.get_k_data("601069") print(dw) dw = dw[60:] dw.index = range(len(dw)) dw['slowk'], dw['slowd'] = ta.STOCH(dw['high'].values, dw['low'].values, d

第四周(1):利用Python计算π的值,并显示进度条

用Python计算圆周率pi并用进度条提示进度 一 计算公式: 二 实现代码 (1) import math from tqdm import tqdm import time total,s,n,t=0.0,1,1.0,1.0 while(math.fabs(t)>=1e-6): total+=t n+=2 s=-s t=s/n k=total*4 print("π值是{:.10f} 运行时间为{:.4f}秒".format(k,time.clock())) for i in

R语言绘制KS曲线;R语言实现KS曲线

更多内容请关注公众号<大数据风控的一点一滴> 将代码封装在函数PlotKS_N里,Pred_Var是预测结果,可以是评分或概率形式:labels_Var是好坏标签,取值为1或0,1代表坏客户,0代表好客户:descending用于控制数据按违约概率降序排列,如果Pred_Var是评分,则descending=0,如果Pred_Var是概率形式,则descending=1:N表示在将数据按风险降序排列后,等分N份后计算KS值. PlotKS_N函数返回的结果为一列表,列表中的元素依次为KS最大值

评分模型的检验方法和标准通常有:K-S指标、交换曲线、AR值、Gini数等。例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成功的应用价值。K-S值越大,表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。

例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成功的应用价值.K-S值越大,表示评分模型能够将"好客户"."坏客户"区分开来的程度越大. 信用评分模型介绍(一) 2016-08-28 蒋靓 Larry Jiang Larry的风险模型分享与探讨 引言:对于信用评分模型,很多朋友或多或少有所了解,这里做一般性的介绍,并分享自己的多年从业经验.这边短文主要包括:信用评分模型,自变量的生成.筛选.

python 在调用时计算默认值

大家都知道python的默认值是在函数定义时计算出来的, 也就是说默认值只会计算一次, 之后函数调用时, 如果参数没有给出,同一个值会赋值给变量, 这会导致, 如果我们想要一个list默认值, 新手通常这么写: def foo(a=[]): a.append(3) print a 其实是错误的,两次调用会这样的结果: [3] [3, 3] 其实应该这么写 def baz(a=None): a = a or [] a.append(3) print a 两次调用输出以下结果: [3] [3] 这样

数学之路-python计算实战(8)-机器视觉-图像二值化

二值化 hreshold Applies a fixed-level threshold to each array element. C++: double threshold(InputArray src, OutputArray dst, double thresh, doublemaxval, int type) Python: cv2.threshold(src, thresh, maxval, type[, dst]) → retval, dst C: double cvThresh

python计算文件的md5值

前言 最近要开发一个基于python的合并文件夹/目录的程序,本来的想法是基于修改时间的比较,即判断文件有没有改变,比较两个文件的修改时间即可.这个想法在windows的pc端下测试没有问题. 但是当把一个文件从pc端复制到优盘时出现了一个问题,复制到优盘的文件比pc端的文件慢了两秒钟! 这里我用的复制函数是 shutil.copy2(),理论上它会把修改时间和最后访问时间也复制过来1,但是实际情况并不是完全相同. 详细情况我在segmentfault里提出了问题:为什么将一个文件从pc中复制到

数学之路-python计算实战(17)-机器视觉-滤波去噪(中值滤波)

Blurs an image using the median filter. C++: void medianBlur(InputArray src, OutputArray dst, int ksize) Python: cv2.medianBlur(src, ksize[, dst]) → dst Parameters: src – input 1-, 3-, or 4-channel image; when ksize is 3 or 5, the image depth should