R语言归一化处理

归一化化就是要把你需要处理的数据经过处理后（通过某种算法）限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便，其次是保正程序运行时收敛加快。

R语言中的归一化函数：scale

数据归一化包括数据的中心化和数据的标准化。

1. 数据的中心化
所谓数据的中心化是指数据集中的各项数据减去数据集的均值。
例如有数据集1, 2, 3, 6, 3，其均值为3,那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即：-2,-1,0,3,0

2. 数据的标准化
所谓数据的标准化是指中心化之后的数据在除以数据集的标准差，即数据集中的各项数据减去数据集的均值再除以数据集的标准差。
例如有数据集1, 2, 3, 6, 3，其均值为3,其标准差为1.87，那么标准化之后的数据集为(1-3)/1.87,(2-3)/1.87,(3-3)/1.87,(6-3)/1.87,(3-3)/1.87,即：-1.069,-0.535,0,1.604,0

数据中心化和标准化的意义是一样的，为了消除量纲对数据结构的影响。在R语言中可以使用scale方法来对数据进行中心化和标准化。

scale函数是将一组数进行处理，默认情况下是将一组数的每个数都减去这组数的平均值后再除以这组数的标准差。

其中有两个参数：
center=TRUE，默认的，是将一组数中每个数减去平均值，若为false，则不减平均值；
scale=TRUE，默认的，是将一组数中每个数除以标准差。

scale默认情况下：将一组数的每个数都减去这组数的平均值后再除以这组数的标准差。

> scale(ss)
           [,1]
[1,] -1.3805850
[2,] -0.6371931
[3,]  0.1061988
[4,]  0.8495908
[5,]  1.5929827
[6,]  0.1061988
[7,] -0.6371931

attr(,"scaled:center")
[1] 2.857143

attr(,"scaled:scale")
[1] 1.345185

时间： 2024-12-14 14:38:55

R语言归一化处理的相关文章

基于R语言的数据分析和挖掘方法总结——描述性统计

1.1 方法简介描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识.在此所提供之统计量包含: 基本信息:样本数.总和集中趋势:均值.中位数.众数离散趋势:方差(标准差).变异系数.全距(最小值.最大值).内四分位距(25%分位数.75%分位数) 分布描述:峰度系数.偏度系数用户可选择多个变量同时进行计算,亦可选择分组变量进行多组别的统计量计算. 1.2 详细介绍 1.2.1 样本数和总和 1. R语言涉及的方法:length(x) 1.2.2 均值(Mean) 1.

R语言神经网络算法

人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型.神经网络由大量的人工神经元联结进行计算.大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统.现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式. 人工神经网络从以下四个方面去模拟人的智能行为: 物理结构:人工神经元将模拟生物神经元的功能计算模拟:人脑的神经元有局部计算和存储的功能,通过连接构成一个系统.人工神经网络中也有大量

R语言学习笔记—K近邻算法

K近邻算法(KNN)是指一个样本如果在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性.即每个样本都可以用它最接近的k个邻居来代表.KNN算法适合分类,也适合回归.KNN算法广泛应用在推荐系统.语义搜索.异常检测. KNN算法分类原理图: 图中绿色的圆点是归属在红色三角还是蓝色方块一类?如果K=5(离绿色圆点最近的5个邻居,虚线圈内),则有3个蓝色方块是绿色圆点的"最近邻居",比例为3/5,因此绿色圆点应当划归到蓝色方块一类:如果

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

这次,我们将使用k-Shape时间序列聚类方法检查与我们有业务关系的公司的股票收益率的时间序列. 执行环境如下. R:3.5.1 企业对企业交易和股票价格在本研究中,我们将研究具有交易关系的公司的价格变化率的时间序列的相似性,而不是网络结构的分析.由于特定客户的销售额与供应商公司的销售额之比较大,当客户公司的股票价格发生变化时,对供应商公司股票价格的反应被认为更大. k-Shape k-Shape [Paparrizos和Gravano,2015]是一种关注时间序列形状的时间序列聚类方法.在我

机器学习-K-means聚类及算法实现（基于R语言）

K-means聚类将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分.产品类别划分等)中. 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离. 算法实现 R语言实现 k-means算法是将数值转换为距离,然后测量距离远近进行聚类的.不归一化的会使得距离非常远. 补充:scale归一化处理的意义两个变量之间数值差别太大,比如年龄与收入的数值差别就很大. 步骤第一步,确定聚类数量,即k的值方法:肘部法则+实际业务需求第二步,运行K-means模型第三

R语言内置数据集

R语言有一个好处,里面内置了大量数据集和案例,这样在学习的时候,无需自己去找数据集,可以就可以根据案例来进行操作.这种优点也被R的很多开发包继承了,甚至在R的bioconductor项目中,将实验数据单独打包成独立的包,来供不同算法进行测试学习. #在R中直接敲data()命令就会输出R内置数据集 data() #添加上固定的扩展包,加载里面的数据data(package="packagename") #直接加载扩展包中的数据集> data(Cars93,package = &q

在R语言中进行缺失值填充：估算缺失值

原文链接:http://tecdat.cn/?p=8287 介绍缺失值被认为是预测建模的首要障碍.因此,掌握克服这些问题的方法很重要. 估算缺失值的方法的选择在很大程度上影响了模型的预测能力.在大多数统计分析方法中,按列表删除是用于估算缺失值的默认方法.但是,它不那么好,因为它会导致信息丢失. 您是否知道R具有用于遗漏价值估算的可靠软件包? 在本文中,我列出了5个R语言方法. 链式方程进行的多元插补通过链式方程进行的多元插补是R用户常用的.与单个插补(例如均值)相比,创建多个插补可解决缺失值

使用R语言计算均值，方差等

R语言对于数值计算很方便,最近用到了计算方差,标准差的功能,特记录. 数据准备 height <- c(6.00, 5.92, 5.58, 5.92) 1 计算均值 mean(height) [1] 5.855 2 计算中位数 median(height) [1] 5.92 3 计算标准差 sd(height) [1] 0.1871719 4 计算方差 var(height) [1] 0.03503333 5 计算两个变量之间的相关系数 cor(height,log(height)) [1] 0

R语言快速上手入门

R语言快速上手入门课程学习网址:http://www.xuetuwuyou.com/course/196 课程出自学途无忧网:http://www.xuetuwuyou.com 课程简介本教程深入浅出地讲解如何使用R语言玩转数据.课程中涵盖R语言编程的方方面面,内容涉及R对象的类型.R的记号体系和环境系统.自定义函数.if else语句.for循环.S3类R的包系统以及调试工具等.本课程还通过示例演示如何进行向量化编程,从而对代码进行提速并尽可能地发挥R的潜能.本课程适合立志成为数据科学家的

猜你喜欢

vps 切换内核

一.安装内核aptitude install linux-image-3.13.0-24-generic linux-headers-3.13.0-24-generic 二.查看已安装的内核dpkg ...

JDK,JRE,JVM区别与联系

JDK : Java Development ToolKit(Java开发工具包).JDK是整个JAVA的核心,包括了Java运行环境(Java Runtime Envirnment),一堆Java工 ...

分布式系统及NoSQLl简介

分布式系统及NoSQL简介 ============================================================================== 数据存储 1 ...

一.简介 ehcache是一个开源的,纯java进程内的缓存框架.它具有快速,简单,具有多种缓存策略等特点. Hibernate中默认就是用了ehcache.在我们的应用中使用ehcache可以快速地 ...

【iOS开发】---- UIView动画

iOS 动画UIView动画原文:http://www.cocoachina.com/bbs/read.php?tid=110168 1.概述 UIKit直接将动画集成到UIView类中,实现简单动 ...

bat（传参情况下）取得当前bat所在的目录路径

在传参情况下,取得bat文件所在的目录路径,可以使用: %~dp0 说明: 01.所谓传参情况是指,将某个文件拖放到bat文件上并放开.此种情况下执行的bat命令就是有带参数的. 02.上面末尾的0是 ...

Foix_Reader_6.0|PDF阅读器

福晰PDF阅读器,是阅读器中的精品.此版本是优化版本. 00:风格前卫 01:使用简洁下载地址: http://yunpan.cn/cHvyUfCdMKZz6 访问密码 ead7

二进制异或运算的应用

异或运算又称XOR或EOR 二进制中为对应位进行运算,若相同则为0,不同则为1. 简单性质: 0与x(任何数)异或运算得x 可以使用交换律和结合律应用1:判断两个数是否相等根据异或运算的定义,当两 ...

xshell无法连接centos 6.6的问题

最近在做MySQL集群配置的预研工作,需要在VirtualBox上安装CentOS 6.6.参照网上的教程安装好centos后,出现了一个问题:虚拟机外部的文本内容无法复制粘贴到CentOS的终端里去 ...

HDU 1234开门人和关门人。

开门人和关门人 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Su ...

IntentFilter打印方法

在我们进行Android应用程序开发时,我们有时需要对某个对象进行打印输出,以方便我们进行调试. 很多对象实现了toString方法,我们可以方便的使用: Log.d(TAG,A); A为实现了toS ...

【BZOJ-3337】ORZJRY I 块状链表

3337: ORZJRY I Time Limit: 30 Sec Memory Limit: 512 MBSubmit: 190 Solved: 50[Submit][Status][Discu ...

关于Java中枚举Enum的深入剖析

在编程语言中我们,都会接触到枚举类型,通常我们进行有穷的列举来实现一些限定.Java也不例外.Java中的枚举类型为Enum,本文将对枚举进行一些比较深入的剖析. 什么是Enum Enum是自Java ...

常规功能和模块自定义系统 (cfcmms)—015模块自定义概述(2权限)

常规功能和模块自定义系统 (cfcmms)-015模块自定义概述(2权限) 模块的权限的自定义也是这个系统的重要部分.在本系统中现在模块的权限有三大类:模块操作权限.记录可视范围限定.附加操作权限. ...

【三】MongoDB文档的CURD操作

一.插入文档使用insert方法插入文档到一个集合中,如果集合不存在创建集合,有以下几种方法: db.collection.insertOne({}):(v3.2 new) #插入一个文档到集合中 ...

SimRank--基于结构的相似度度量方法学习笔记

详见:Glen Jeh 和 Jennifer Widom 的论文SimRank: A Measure of Structural-Context Similarity? 一.简介目前主要有两大类相似 ...

require(),include(),require_once()和include_once()之间的区别

require(),include(),require_once()和include_once()之间的区别引用文件的方法有两种:require 及 include. require 的使用方法如 ...

HDU 2897 经典巴什博弈

从n个石子中每次取p~q个,求先手能否获胜可以先列举一部分数据,然后观察可得总是在p+q中循环,所以只要用n对p+q取模就好了 #include <cstdio> #include &l ...

2014年12月6日迅雷会员账号分享最新更新

迅雷会员账号:vivakill:2 分享密码:1912287 迅雷会员账号:liyang25094:2 分享密码:9556900 迅雷会员账号:liyang25094:1 ...

排序算法(OC版)

针对每个算法实现的代码没有单独上传到gitHub,有需要的来群里下载<欢迎大家加入iOS开发学习交流群:QQ529560119> 数据结构与算法的作用: 数据结构与算法相当于内功心法,而各 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.