关于交易信用评分的分布形态描述

  想研究网络交易中买家会对卖家进行信用评分的分布形态。但手头下并没有实际数据,在数据堂找到了关于对电影和5分评分数据,这个能做一个很好的模拟,很像eBay信用评分的反馈计分方式。为此就用此数据进行模拟,模拟在R中进行。

  很长时间没用R了,关于R知识现在要逐步的拣起来。期间关于R的操作遇到如下问题:



  1.源数据没有列命,重新对进行了命名。直接使用

  names(mydata) <- c(‘user_id‘,‘item_id‘,‘rating‘,‘timestamp‘)进报错后,换成

  colnames(mydata) <- c(‘user_id‘,‘item_id‘,‘rating‘,‘timestamp‘)成功。

  注意到R中:查看数据时names; dimnames; colnames,rownames; 和写出数据时,rwo.names, col.names的各个功能。(需要学习它们的区别和适用范围)

  2.关于对数据的画图。为了解一个数据的分布形态常用的图形分布有:

  直方图 hist()

  茎叶图 stem()——这个有没有办法把默认的图形不是很好,能右旋一下如同直方图就好了。

  通常在得到直方图后,需要在图形上添加l[lines()]一个密度曲线[density()]来大概看一下其分布形态。

  density():密度函数,plot(density(x))画出密度函数;lines()添加密度曲线

  

  涉及到几个函数:

        dnorm是正态分布的密度函数,pnorm是正态分布的分布函数

        qqplot(),常用来检验数据的是否是正态分布,是两样本的正态性对比,qqplot(x),其中x为一组样本,运行时会出错

        qqnorm()样本与样本期望的正态性对比。此次实验要用此法。但由于数据不连续性,画出的图也是离散的。

  3.关于画线,lines(),abline()都能对已画图形添加线条,但:

  函数lines()其作用是在已有图上加线,画连线图,其输入是x,y的点向量命。令为lines(x,y),其功能相当于plot(x,y,type="1")

  函数abline()可以在图上加直线,其使用方法有四种格式。
  (1)abline(a,b)
  表示画一条y=a+bx的直线
  (2)abline(h=y)
  表示画出一条过所有点得水平直线
  (3)abline(v=x)
  表示画出一条过所有点的竖直直线
  (4)abline(lm.obj)
  表示绘出线性模型得到的线性方程,画回归线时常用此法。

  

  4.在回顾以上知识时,练习了 http://blog.sina.com.cn/s/blog_8d8d6cde01017d1b.html提供了例子。在最后遇到了Error in plot.new() : figure margins too large的错误。用http://blog.sina.com.cn/s/blog_6a1fa6e20102uzjy.html方法解决,即在Rstudio中使用R时,要拉大图形显示窗口,否则图形无法显示完而报错。



继续实验,有待补充!

时间: 2024-11-07 08:39:22

关于交易信用评分的分布形态描述的相关文章

信用评分卡模型开发中双峰分布原因及解决方案

信用评分卡模型开发中双峰分布原因及解决方案 文: 郑旻圻 邹钰 刘巧莉 转自:  数信互融 在信用评分卡模型开发过程中,正态性是检验模型信用评分分布是否有效的一个重要指标.正常情况下,标准的正态分布是单峰分布:但是在实际建模过程中,会遇到信用评分分布出现双峰的情况. 双峰分布出现时,数据规律一致性的假设被打破,我们需要从不同的角度考察其出现双峰分布的原因,对模型加以调整,使之准确地反映业务和数据中的规律,以便模型准确适用. 根据为数十家互联网金融企业建立评分卡模型的实践经验,我们总结了一些造成双

3分钟搞明白信用评分卡模型&amp;模型验证

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型. 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户:则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明. Woe公式如下: A

互联网征信中的信用评分模型(转)

摘要:面向小微商户以及个人消费的小微信贷是当前互联网金融的重要发展方向,并且正在经历爆发式增长.在这个增长过程中,如何在没有实物抵押的情况下,通过互联网大数据分析实现快速准确征信是一个非常重要的问题.为此,不同的数据来源将各显神通地为信用评估提供依据.本文将通过一个真实的案例出发,进行分析和探讨,针对用户历史行为数据建立信用评分模型,并通过该模型改进信用评估的预测效果. 关键词: 小微信贷:互联网征信:信用评分:Logistic回归模型 一.业务介绍 行业介绍 小微信贷,我们定义为金额较小,并且

信用评分卡模型入门(智能算法)

信用评分卡模型入门 2016-07-26 智能算法 智能算法 一.背景介绍:   4.数据整理(数据清理过程) 大量取样的数据要真正最后进入模型,必须经过数据整理.在数据处理时应注意检查数据的逻辑性.区分"数据缺失"和"0".根据逻辑推断某些值.寻找反常数据.评估是否真实.可以通过求最小值.最大值和平均值的方法,初步验证抽样数据是否随机.是否具有代表性. 常用清理过程包含:缺失值分析处理.单变量异常分析(LOF分析处理或聚类分析) 5.变量选择 变量选择要同时具有数

互金时代如何定制个性化信用评分模型

互金时代如何定制个性化信用评分模型 相比起传统金融机构,互联网金融以个性化服务取胜,由此也催生了各类深耕细分市场的互联网金融公司.不过这样一来,原来传统风控的玩法和经验,已经很难满足新兴互联网金融公司的风控需求. 如何用最为省时省力的方法,打造契合自身业务特色的个性化风控模型?如何利用先进的大数据手段,迅速提高风控的效率,降低风控的成本?今天就让处座来介绍一下吧. 风控将成互联网金融发展"痛点" 在经历2013至2014年的爆发式发展之后,互联网金融行业逐渐步入到规范化发展阶段.201

笔记︱金融风险控制基础常识——巴塞尔协议+信用评分卡Fico信用分

一.巴塞尔协议--银行业监管手册 巴塞尔协议Ⅲ是全球银行业监管的标杆,其出台必将引发国际金融监管准则的调整和重组,影响银行的经营模式和发展战略.在巴塞尔协议Ⅲ出台之际,中国银监会及时推出了四大监管工具,包括资本要求.杠杆率.拨备率和流动性要求四大方面,及时进行了跟进,构成了未来一段时期中国银行业监管的新框架. 该报告主要有四部分内容: 1.资本的分类: 2.风险权重的计算标准: 3.1992年资本与资产的标准比例和过渡期的实施安排: 4.各国监管当局自由决定的范围. 体现协议核心思想的是前两项.

信用评分怎么算出来的?偷偷给你一份客户信用等级简易评估模型.......

信用评分怎么算出来的?偷偷给你一份客户信用等级简易评估模型....... 2016-06-20 信用知识公益平台 对于像葵花君这样的菜鸟而言,心中始终萦绕着一个硕大的问号 信用等级到底是怎么评估出来的? 难道是夜观星象么? 今天偷偷给你一份客户信用等级简易评估模型....... 客户的信用等级简易评估办法,就是依据一系列实测指标,经评估打分综合划分出客户的信用等级. 为计算方便采用满分为10分制,根据对征信资料的审查核实,对每一项指标打分后综合计算平均值,最后再加权计算综合得分. 一 .主体资格

信用评分卡 (part 3of 7)

python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 原文地址:https://www.cnblogs.com/webRobot/p/9736382.html

信用评分卡 (part 1 of 7)

python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 信用危机时代的信用评分卡 Credit Scorecards in the Age of Credit Crisis This incident took place