python验证特征缩放前后结果

利用sklearn linear_model下的线性模型验证一下特征缩放前后结果是否一致

验证因变量y的缩放

import numpy as np
from sklearn import linear_model
x=[[1],[2],[3],[4],[5]]
y=[100,200,300,400,500]
y2=[]
avg=np.mean(y)
for i in range(len(x)):
    y2.append(y[i]/avg)
clf=linear_model.LinearRegression()
X=[[2]]
clf.fit(x,y)
start=clf.predict(X)
clf.fit(x,y2)
end=clf.predict(X)
print(start)
print(end*avg)

结果:

[200.]
[200.]

验证自变量x的缩放(结上面的代码)

y=[[1],[2],[3],[4],[5]]
x=[[100],[200],[300],[400],[500]]
x2=[[0],[0],[0],[0],[0]]
avg=np.mean(x)
for i in range(len(x)):
    x2[i][0]=x[i][0]/avg
clf=linear_model.LinearRegression()
X=[[100]]
clf.fit(x,y)
start=clf.predict(X)
clf.fit(x2,y)
end=clf.predict(X/avg)
print(start)
print(end)

结果:

[[1.]]
[[1.]]
>>>

缩放前后的结果是一致的~~~

原文地址:https://www.cnblogs.com/chenminyu/p/10589034.html

时间: 2024-08-04 06:22:56

python验证特征缩放前后结果的相关文章

ng机器学习视频笔记(三) ——线性回归的多变量、特征缩放、标准方程法

ng机器学习视频笔记(三) --线性回归的多变量.特征缩放.标准方程法 (转载请附上本文链接--linhxx) 一.多变量 当有n个特征值,m个变量时,h(x)= θ0+θ1x1+θ2x2-+θnxn,其中可以认为x0=1.因此,h(x)= θTx,其中θ是一维向量,θ=[θ0, θ1-θn] T,x也是一维向量,x=[x0,x1..xn] T,其中x0=1. 二.特征缩放(Feature Scaling) 特征缩放的目的,是为了让每个特征值在数量上更加接近,使得每个特征值的变化的影响相对比较"

特征缩放 | 归一化和标准化(上)

什么是特征缩放: 就是将所有数据映射到同一尺度.如: 某训练集 x_train 为: (x_trian) 将其进行某种特征缩放之后,得到新的值: 显然经过特征缩放之后,特征值变小了 为什么要进行特征缩放呢? 有些特征的值是有区间界限的,如年龄,体重.而有些特征的值是可以无限制增加,如计数值. 所以特征与特征之间数值的差距会对模型产生不良影响.如: 在该样本集中,由于量纲不同,模型受 '次数'特征所主导.因此如果没有对数据进行预处理的话 有可能带来偏差,难以较好的反应特征之间的重要程度.其实还有利

机器学习中(Feature Scaling)特征缩放处理的matlab实现方式

在进行特征缩放的时候,其一般做法是(X-mu)/sigma mu:代表均值 sigma:代表标准差 在matlab中,函数mean可以求特征的均值,函数std可以求特征的标准差. 假设训练集为m,特征数量为n,特征矩阵为X,则X的size为 m*n. 则 mu = mean(X)返回值为一个1*n的向量,向量中每个值对应于每个特征的均值. 则 sigma = std(X) 返回值为一个1*n的向量,向量中每个值对应于每个特征的标准差. 为了进行特征缩放,我们需要使用matlab中另外一个函数re

梯度下降在实践I -特征缩放

我们可以通过使每个输入值在大致相同的范围内加快梯度下降速度.这是因为θ下降很快在小范围和在大范围很慢,所以将振荡不到最佳当变量很不平衡 防止这种情况的方法是修改输入变量的范围,使它们完全相同.理想的: 这些不是确切的要求,我们只是想加快速度.我们的目标是将所有输入变量大致放在其中一个范围内,或取一些. 有两种技术可以帮助我们进行特征缩放和均值归一化.特征缩放包括将输入值除以输入变量的最大值(即最大值减去最小值),从而使新范围仅为1.均值归一化包括从输入变量的值减去输入变量的平均值,从而使输入变量

Python验证哥德巴赫猜想

今天看到百度知道有人问如何验证1000以内的数符合哥德巴赫猜想,就写了一个 感觉超过10000时有点慢啊,和java比起来效率差了点,希望高手能给优化下 #!/usr/bin/env python __author__ = '淮南霏霏' """ 脚本编写环境python 3.4.2 哥德巴赫猜想 简单验证 """ import math class Goldbach: """ 哥德巴赫猜想:任一大于2的偶数都可写成两

【Python图像特征的音乐序列生成】关于小样本的一些思考

我之前就注意到,深度学习和音乐结合,尤其是从乐理出发进行结合(而不是纯粹的进行音乐生成),是一个尚未被深度挖掘的全新领域.可想而知,这个方向符合我要求的数据肯定是要自己搜集了. 自己搜集的数据,在量上就已经输了,只是考虑到我们要做的任务并不复杂,准确的说只是一个分类器,再加一个LSTM而已.对于这个分类器,甚至不需要用卷积神经网络,可以使用一些其他的网络:而LSTM的样本本来就蕴含了很明确的规律,变化并不是很大. 那么我们就要开始思考,除了一些常规的训练方法,还有什么训练适合小样本数据吗? 1.

Python高质量缩放切图

最近刚接触Python,以迅雷不及掩耳盗铃之势(只是迫不及待)应用到工作中去了之前用 cmd+photoshop做批量图像处理(缩放切片),在执行效率(速度)上和灵活度上有很大限制,遂转战Python(我对于大语种庞大的类库感到力不从心,喜欢用脚本语言来快速编辑.执行)真正开始学习Python第一天,我奋战到深夜三点,勉强完成了可以替代先前用“cmd+photoshop快捷批处理”实现的切图工具,执行效率大概是先前的10倍.为什么说是“勉强”,因为输出图像质量没Photoshop输出的好.Pyt

Python数据挖掘—特征工程—数据处理

概念: 特征工程:本质上是一项工程活动,他目的是最大限度地从原始数据中提取特征以供算法和模型使用 特征工程的重要性:特征越好,灵活性越强.模型越简单.性能越出色. 特征工程包括:数据处理.特征选择.维度压缩 量纲不一: 就是单位,特征的单位不一致,不能放在一起比较 通过:0-1标准化.Z标准化.Normalizer归一化 数据处理-归一化: 1 import pandas 2 3 data=pandas.read_csv( 4 "C:\\Users\\Jw\\Desktop\\python_wo

Python数据挖掘—特征工程—特征选择

如何选择特征 根据是否发散及是否相关来选择 方差选择法 先计算各个特征的方差,根据阈值,选择方差大于阈值的特征 方差过滤使用到的是VarianceThreshold类,该类有个参数threshold,该值为最小方差的阈值,然后使用fit_transform进行特征值过滤 相关系数法 先计算各个特征对目标值的相关系数,选择更加相关的特征 递归特征消除法 使用一个基模型来进行多轮训练,经过多轮训练后,保留指定的特征数 通过estimator将基模型设置为线性模型(可以设置为其他类型),通过n_fea