数据的归一化和标准化

归一化:

----把数据变成(0,1)之间的小数

----把有量纲表达式变成无量纲表达式

归一化算法有:

1、线性转化: y=(x-MinValue)/(MaxValue-MinValue)

2、对数函数转化:y=log10(x)

3、反余切函数转换:  y=arctan(x)*2/PI

---------------------------------------------------------------------------

规范化:

----把数据按比例缩放,使之落入一个小的空间里

1.最小-最大规范化(线性变换)

y=( (x-MinValue) / (MaxValue-MinValue) )(new_MaxValue-new_MinValue)+new_minValue

2.z-score规范化(或零-均值规范化)

 y=(x-X的平均值)/X的标准差

 优点:当X的最大值和最小值未知,或孤立点左右了最大-最小规范化时, 该方法有用

3.小数定标规范化:通过移动X的小数位置来进行规范化

 y= x/10的j次方  (其中,j使得Max(|y|) <1的最小整数

4.对数Logistic模式:

新数据=1/(1+e^(-原数据))

5.模糊量化模式:

新数据=1/2+1/2*sin[PI/(极大值-极小值)*(X-(极大值-极小值)/2) ]       X为原数据

时间: 2024-10-29 11:08:51

数据的归一化和标准化的相关文章

第二节 数值型特征进行归一化或标准化处理

数值型特征处理:通过特定的统计方法将数据转换成算法要求的数据,归一化和标准化 # 归一化的计算公式决定了其对异常值很敏感,一旦出现异常值会导致鲁棒性较差,所以归一化只适合传统精确小数据场景 from sklearn.preprocessing import MinMaxScaler def mm(): # feature_range指定归一化后的数据范围,不指定就是0-1之间 mm = MinMaxScaler(feature_range=(2, 3)) # fit_transform接收数组

为什么一些机器学习模型需要对数据进行归一化?

为什么一些机器学习模型需要对数据进行归一化? http://www.cnblogs.com/LBSer/p/4440590.html 针对这个问题参考了wiki的解释:http://en.wikipedia.org/wiki/Feature_scaling.“归一化后有两个好处:1)归一化后加快了梯度下降求最优解的速度:2)归一化有可能提高精度”. 1 归一化为什么能提高梯度下降法求解最优解的速度? 斯坦福机器学习视频做了很好的解释:https://class.coursera.org/ml-0

机器学习经典模型简单使用及归一化(标准化)影响测试

俗话说的好,不动手就永远不知道该怎么做,上次一听说要做这个的时候人都懵了,听了几次似乎都摸不到门道,这次花了几天时间去写了写,总算是摸到了点门道. 实验 数据集 这次用到的数据集是跟火电厂有关的,都是匿名特征,数据量为20160*170,做到最后发现只根据时间顺序就能做的比较好. 归一化 先来讲讲归一化.归一化也称标准化,是数据挖掘的一项基础工作,使用归一化的原因大体如下 数据存在不同的评价指标,其量纲或量纲单位不同,处于不同的数量级.解决特征指标之间的可比性,经过归一化处理后,各指标处于同一数

特征工程2:归一化与标准化

归一化与标准化属于特征预处理的范畴 · 特征预处理是什么? 通过特定的数学统计方法将数据转化为算法要求的数据: 特征预处理在scikit-learn中的模块是:sklearn.preprocessing 对于不同的数据类型,有不同的处理方式,三种常见的数据类型: 数值型 类别型 时间类型 · 这里我们先看数值型的预处理: 标准缩放:有两种常见方式,归一化和标准化. 在特征较多时,并且认为这些特征同等重要,或者算法模型涉及到距离计算时(比如K近邻),为了防止某些特征的值对算法产生的影响过大,需要将

数据的归一化处理

数据的标准化(normalization)和归一化 数据的标准化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间.在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权. 目前数据标准化方法:直线型方法(如极值法.标准差法).折线型方法(如三折线法).曲线型方法(如半正态性分布).不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据标准化方法的选择上,还没有通用的

机器学习笔记:为什么要对数据进行归一化处理?

文章来自知乎,作者hit nlper 忆臻 转自:https://zhuanlan.zhihu.com/p/27627299 在喂给机器学习模型的数据中,对数据要进行归一化的处理. 为什么要进行归一化处理,下面从寻找最优解这个角度给出自己的看法. 例子 假定为预测房价的例子,自变量为面积,房间数两个,因变量为房价. 那么可以得到的公式为: 其中代表房间数,代表变量前面的系数. 其中代表面积,代表变量前面的系数. 首先我们祭出两张图代表数据是否均一化的最优解寻解过程. 未归一化: 归一化之后 为什

关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

一.标准化(Z-Score),或者去除均值和方差缩放 公式为:(X-mean)/std  计算时对每个属性/每列分别进行. 将数据按期属性(按列进行)减去其均值,并处以其方差.得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1. 实现时,有两种不同的方式: 使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标准化. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 >>> from skle

[Scikit-Learn] - 数据预处理 - 归一化/标准化/正则化

reference: http://www.cnblogs.com/chaosimple/p/4153167.html 一.标准化(Z-Score),或者去除均值和方差缩放 公式为:(X-mean)/std  计算时对每个属性/每列分别进行. 将数据按期属性(按列进行)减去其均值,并处以其方差.得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1. 实现时,有两种不同的方式: 使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标准化. 1

Matlab中的数据预处理-归一化(mapminmax)与标准化(mapstd)

一.mapminmax Process matrices by mapping row minimum and maximum values to [-1 1] 意思是将矩阵的每一行处理成[-1,1]区间,此时对于模式识别或者其他统计学来说,数据应该是每一列是一个样本,每一行是多个样本的同一维,即对于一个M*N的矩阵来说,样本的维度是M,样本数目是N,一共N列N个样本. 其主要调用形式有: 1. [Y,PS] = mapminmax(X,YMIN,YMAX) 2. [Y,PS] = mapmin