R_Studio(贷款)数据规范化处理[最小-最大规范化、零-均值规范化、小数定标规范化]

  农场申请贷款.csv

 

  对“农场申请贷款.csv”中农场大小、降雨量、农场质量、农场收入进行数据规范化处理 行数[4 5 6 7]

  “农场申请贷款.csv”中存在缺失值,已对数据进行预处理

setwd(‘D:\\data‘)

list.files()

#数据读取
dat=read.csv(file="农场申请贷款.csv",header=TRUE)

sub=which(is.na(dat[5]$‘降雨量‘))#识别缺失值所在行数
#将数据集分成完整数据和缺失数据两部分
inputfile1=dat[-sub,]    #缺失部分
inputfile2=dat[sub,]     #不缺失部分  

dat=inputfile1

#最小-最大规范化
b1=(dat[,4]-min(dat[,4]))/(max(dat[,4])-min(dat[,4]))
b2=(dat[,5]-min(dat[,5]))/(max(dat[,5])-min(dat[,5]))

b3=(dat[,6]-min(dat[,6]))/(max(dat[,6])-min(dat[,6]))
b4=(dat[,7]-min(dat[,7]))/(max(dat[,7])-min(dat[,7]))
data_scatter=cbind(b1,b2,b3,b4)
newdata=dat
for(i in 4:7){
  newdata[,i] =(dat[,i]-min(dat[,i]))/(max(dat[,i])-min(dat[,i]))
}

data_scatter=cbind(b1,b2,b3,b4)

data_scatter=cbind(b1,b2,b3,b4)   

#零-均值规范化
data_zscore=scale(data_scatter)
data_zscore

#小数定标规范化
i1=ceiling(log(max(abs(dat[,4])),10))#小数定标的指数
c1=dat[,4]/10^i1
i2=ceiling(log(max(abs(dat[,5])),10))
c2=dat[,5]/10^i2
i3=ceiling(log(max(abs(dat[,6])),10))
c3=dat[,6]/10^i3
i4=ceiling(log(max(abs(dat[,6])),10))
c4=dat[,7]/10^i4
data_dot=cbind(c1,c2,c3,c4)

#打印结果
options(digits = 4)#控制输出结果的有效位数
data;data_scatter;data_zscore;data_dot

Gary.R

  最小-最大规范化:对原始数据的线性变换,将数值映射到[0,1]

  

setwd(‘D:\\data‘)
list.files()
#数据读取
dat=read.csv(file="农场申请贷款.csv",header=TRUE)

sub=which(is.na(dat[5]$‘降雨量‘))#识别缺失值所在行数
#将数据集分成完整数据和缺失数据两部分
inputfile1=dat[-sub,]    #缺失部分
inputfile2=dat[sub,]     #不缺失部分  

dat=inputfile1  #将清洗过的数据保存回dat中
#最小-最大规范化
b1=(dat[,4]-min(dat[,4]))/(max(dat[,4])-min(dat[,4]))
b2=(dat[,5]-min(dat[,5]))/(max(dat[,5])-min(dat[,5]))
b3=(dat[,6]-min(dat[,6]))/(max(dat[,6])-min(dat[,6]))
b4=(dat[,7]-min(dat[,7]))/(max(dat[,7])-min(dat[,7]))
data_scatter=cbind(b1,b2,b3,b4)
newdata=dat
for(i in 4:7){
  newdata[,i] =(dat[,i]-min(dat[,i]))/(max(dat[,i])-min(dat[,i]))
}
data_scatter=cbind(b1,b2,b3,b4)

data_scatter

Gary.R

  零-均值规范化:标准差规范化,经过处理的数据的均值位0,标准差位1

  

  scale方法中的两个参数center和scale的解释:
    center和scale默认为真,即T或者TRUE
    center为真表示数据中心化(只减去均值不做其他处理)
    scale为真表示数据标准化

setwd(‘D:\\data‘)
list.files()
#数据读取
dat=read.csv(file="农场申请贷款.csv",header=TRUE)

sub=which(is.na(dat[5]$‘降雨量‘))#识别缺失值所在行数
#将数据集分成完整数据和缺失数据两部分
inputfile1=dat[-sub,]    #缺失部分
inputfile2=dat[sub,]     #不缺失部分  

dat=inputfile1  #将清洗过的数据保存回dat中
#零-均值规范化
data_zscore=scale(data_scatter)
data_zscore

data_zscore

Gary.R

  

  小数定标规范化:最小-最大规范化保持原有数据之间的联系

  

setwd(‘D:\\data‘)
list.files()
#数据读取
dat=read.csv(file="农场申请贷款.csv",header=TRUE)

sub=which(is.na(dat[5]$‘降雨量‘))#识别缺失值所在行数
#将数据集分成完整数据和缺失数据两部分
inputfile1=dat[-sub,]    #缺失部分
inputfile2=dat[sub,]     #不缺失部分  

dat=inputfile1  #将清洗过的数据保存回dat中
#小数定标规范化
i1=ceiling(log(max(abs(dat[,4])),10))#小数定标的指数
c1=dat[,4]/10^i1
i2=ceiling(log(max(abs(dat[,5])),10))
c2=dat[,5]/10^i2
i3=ceiling(log(max(abs(dat[,6])),10))
c3=dat[,6]/10^i3
i4=ceiling(log(max(abs(dat[,6])),10))
c4=dat[,7]/10^i4
data_dot=cbind(c1,c2,c3,c4)

data_dot

Gary.R

原文地址:https://www.cnblogs.com/1138720556Gary/p/9715492.html

时间: 2024-10-14 00:39:12

R_Studio(贷款)数据规范化处理[最小-最大规范化、零-均值规范化、小数定标规范化]的相关文章

[RK_2014_0923]wireshark捕捉到的Ethernet II数据包的最小长度为60

一.关于wireshark中以太网数据包的最小长度,请看下面的文字: Packet format A physical Ethernet packet will look like this: Preamble Destination MAC address Source MAC address Type/Length User Data Frame Check Sequence (FCS) 8 6 6 2 46 - 1500 4 As the Ethernet hardware filters

【数据分析&数据挖掘】三种数据标准化方式——离差标准化、标准差标准化&小数定标标准化

1 import pandas as pd 2 import numpy as np 3 4 5 # 标准化----去除量级的影响 6 7 # 3种方式 8 # (1)离差标准化 9 # 将数据做线性变化,将数据映射到[0,1]范围内, 10 # x = (x - min) / (max - min) 11 # 过大或者过小的异常值都会对结果产生影响 12 # 容易受到异常值影响 13 def max_min_sca(data): 14 """ 15 借助离差标准化 来标准化

R语言-来自Prosper的贷款数据探索

案例分析:Prosper是美国的一家P2P在线借贷平台,网站撮合了一些有闲钱的人和一些急用钱的人.用户若有贷款需求,可在网站上列出期望数额和可承受的最大利率.潜在贷方则为数额和利率展开竞价. 本项目拟通过该数据集的探索,结合自己的理解进行分析,最终目的的是初步预测哪些人贷款后会还款.哪些人会赖账. 1.探索数据集 1 loandata = read.csv("prosperLoanData.csv") 2 str(loandata) 结论:一共有81个变量,113937个对象 2.选择

mysql 多字段删除重复数据,保留最小id数据

直接上sql:方法一: delete from Route where id in (select b.id from (select * from Route a where id<>(select min(id) from Route where payment_type=0 and point_start=a.point_start and point_end=a.point_end) )b); 问题:一张route表.现在需要删除,payment_type=0 ,并且point_sta

为mysql数据备份建立最小权限的用户

mysqldump 备份所需要的最小权限说明: 1.对于table,mysqldump 最少要有select权限 2.如果要产生一份一致的备份,mysqldump 要有lock tables权限 3.对于view,mysqldump 要有show view权限 4.对于trigger,mysqldump 要有trriger权限 5.对于event,mysqldump 要有event权限 命令: grant select,lock tables,show view,trigger,event on

删除表中重复数据,只删除重复数据中ID最小的

delete t_xxx_user where recid in ( select recid from t_xxx_user where recid in ( select min(recid) from t_sz_grid_forecast_user where ddatetime = to_date('2019-12-17 16:00:00','yyyy-MM-dd hh24:mi:ss') and forecaster = 'XXX'  group by venueid,ybsx hav

caffe 图片数据的转换成lmdb和数据集均值(转)

转自网站: http://blog.csdn.net/muyiyushan/article/details/70578077 1.准备数据 使用dog/cat数据集,在训练项目根目录下分别建立train和val文件夹,作为训练数据和验证数据的保存位置.train和val文件夹下各有两个文件夹:dogs和cats,分别保存dog和cat的图片.dog和cat分别有1000张训练图像和400张测试图像. 写一个python脚本文件,遍历train和val两个文件夹,分别生成train.txt和val

数据转图像、表征学习、均值编码、转换目标变量

原文:https://www.toutiao.com/i6597192035214557710/ 几种新的特征转换思维: 1.数据转换成图像 Kaggle上有一个微软恶意软件分类挑战,它的数据集包含一组已知的恶意软件文件,对于每个文件,原始数据包含文件二进制内容的十六进制表示.此前,参赛者在网上从没接触过类似的数据集,而他们的目标是开发最优分类算法,把测试集中的文件放到各自所属的类别中.比赛冠军的特征方法: 将恶意文件的字节文档看成黑白图像,其中每个字节的像素强度在0-255之间.然而,标准图像

金融数据指标(历史移动波动率,均值)

1.导入函数 import numpy as np import pandas as pd import matplotlib.pyplot as plt import tushare as ts import math 2. 数据获取 data = ts.get_hist_data('000012',start='2015-06-23',end='2017-11-16') 3.移动平均值 # 滚动窗口的使用data['42d']= pd.rolling_mean(data['close'],w