[转] [机器学习] 常用数据标准化（正则化）的方法

数据正则化

目的：为了加快训练网络的收敛性，可以不进行归一化处理

源地址：http://blog.sina.com.cn/s/blog_8808cae20102vg53.html

而在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。因此，为了保证结果的可靠性，需要对原始指标数据进行标准化处理。

目前数据标准化方法有多种，归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法，对系统的评价结果会产生不同的影响，然而不幸的是，在数据标准化方法的选择上，还没有通用的法则可以遵循。

1 什么是数据标准化（Normalization）

将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

2 有哪些常用方法呢？

方法一：规范化方法(离差标准化)

对原始数据的线性变换，使结果映射到[0,1]区间。

这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

方法二：正规化方法

这种方法基于原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。将A的原始值x使用z-score标准化到x’。
z-score标准化方法适用于属性A的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。
标准化后的变量值围绕0上下波动，大于0说明高于平均水平，小于0说明低于平均水平。

方法三：归一化方法

通过以10为底的log函数转换的方法同样可以实现归一下，具体方法如下: 看了下网上很多介绍都是x*=log10(x)，其实是有问题的，这个结果并非一定落到[0,1]区间上，应该还要除以log10(max)，max为样本数据最大值，并且所有的数据都要大于等于1。

用反正切函数也可以实现数据的归一化: 使用这个方法需要注意的是如果想映射的区间为[0,1]，则数据都应该大于等于0，小于0的数据将被映射到[-1,0]区间上。y=atan(x)*2/PI

时间： 2024-08-28 04:51:54

Python数据标准化、归一化