python验证特征缩放前后结果

利用sklearn linear_model下的线性模型验证一下特征缩放前后结果是否一致

验证因变量y的缩放

import numpy as np
from sklearn import linear_model
x=[[1],[2],[3],[4],[5]]
y=[100,200,300,400,500]
y2=[]
avg=np.mean(y)
for i in range(len(x)):
    y2.append(y[i]/avg)
clf=linear_model.LinearRegression()
X=[[2]]
clf.fit(x,y)
start=clf.predict(X)
clf.fit(x,y2)
end=clf.predict(X)
print(start)
print(end*avg)

结果：

[200.]
[200.]

验证自变量x的缩放(结上面的代码)

y=[[1],[2],[3],[4],[5]]
x=[[100],[200],[300],[400],[500]]
x2=[[0],[0],[0],[0],[0]]
avg=np.mean(x)
for i in range(len(x)):
    x2[i][0]=x[i][0]/avg
clf=linear_model.LinearRegression()
X=[[100]]
clf.fit(x,y)
start=clf.predict(X)
clf.fit(x2,y)
end=clf.predict(X/avg)
print(start)
print(end)

结果：

[[1.]]
[[1.]]
>>>

缩放前后的结果是一致的~~~

原文地址：https://www.cnblogs.com/chenminyu/p/10589034.html

时间： 2024-10-09 14:45:59

python验证特征缩放前后结果的相关文章

ng机器学习视频笔记（三） ——线性回归的多变量、特征缩放、标准方程法

ng机器学习视频笔记(三) --线性回归的多变量.特征缩放.标准方程法 (转载请附上本文链接--linhxx) 一.多变量当有n个特征值,m个变量时,h(x)= θ0+θ1x1+θ2x2-+θnxn,其中可以认为x0=1.因此,h(x)= θTx,其中θ是一维向量,θ=[θ0, θ1-θn] T,x也是一维向量,x=[x0,x1..xn] T,其中x0=1. 二.特征缩放(Feature Scaling) 特征缩放的目的,是为了让每个特征值在数量上更加接近,使得每个特征值的变化的影响相对比较"

特征缩放 | 归一化和标准化（上）

什么是特征缩放: 就是将所有数据映射到同一尺度.如: 某训练集 x_train 为: (x_trian) 将其进行某种特征缩放之后,得到新的值: 显然经过特征缩放之后,特征值变小了为什么要进行特征缩放呢? 有些特征的值是有区间界限的,如年龄,体重.而有些特征的值是可以无限制增加,如计数值. 所以特征与特征之间数值的差距会对模型产生不良影响.如: 在该样本集中,由于量纲不同,模型受 '次数'特征所主导.因此如果没有对数据进行预处理的话有可能带来偏差,难以较好的反应特征之间的重要程度.其实还有利

机器学习中（Feature Scaling）特征缩放处理的matlab实现方式

在进行特征缩放的时候,其一般做法是(X-mu)/sigma mu:代表均值 sigma:代表标准差在matlab中,函数mean可以求特征的均值,函数std可以求特征的标准差. 假设训练集为m,特征数量为n,特征矩阵为X,则X的size为 m*n. 则 mu = mean(X)返回值为一个1*n的向量,向量中每个值对应于每个特征的均值. 则 sigma = std(X) 返回值为一个1*n的向量,向量中每个值对应于每个特征的标准差. 为了进行特征缩放,我们需要使用matlab中另外一个函数re

梯度下降在实践I -特征缩放

我们可以通过使每个输入值在大致相同的范围内加快梯度下降速度.这是因为θ下降很快在小范围和在大范围很慢,所以将振荡不到最佳当变量很不平衡防止这种情况的方法是修改输入变量的范围,使它们完全相同.理想的: 这些不是确切的要求,我们只是想加快速度.我们的目标是将所有输入变量大致放在其中一个范围内,或取一些. 有两种技术可以帮助我们进行特征缩放和均值归一化.特征缩放包括将输入值除以输入变量的最大值(即最大值减去最小值),从而使新范围仅为1.均值归一化包括从输入变量的值减去输入变量的平均值,从而使输入变量

Python验证哥德巴赫猜想

今天看到百度知道有人问如何验证1000以内的数符合哥德巴赫猜想,就写了一个感觉超过10000时有点慢啊,和java比起来效率差了点,希望高手能给优化下 #!/usr/bin/env python __author__ = '淮南霏霏' """ 脚本编写环境python 3.4.2 哥德巴赫猜想简单验证 """ import math class Goldbach: """ 哥德巴赫猜想:任一大于2的偶数都可写成两

【Python图像特征的音乐序列生成】关于小样本的一些思考

我之前就注意到,深度学习和音乐结合,尤其是从乐理出发进行结合(而不是纯粹的进行音乐生成),是一个尚未被深度挖掘的全新领域.可想而知,这个方向符合我要求的数据肯定是要自己搜集了. 自己搜集的数据,在量上就已经输了,只是考虑到我们要做的任务并不复杂,准确的说只是一个分类器,再加一个LSTM而已.对于这个分类器,甚至不需要用卷积神经网络,可以使用一些其他的网络:而LSTM的样本本来就蕴含了很明确的规律,变化并不是很大. 那么我们就要开始思考,除了一些常规的训练方法,还有什么训练适合小样本数据吗? 1.

Python高质量缩放切图

最近刚接触Python,以迅雷不及掩耳盗铃之势(只是迫不及待)应用到工作中去了之前用 cmd+photoshop做批量图像处理(缩放切片),在执行效率(速度)上和灵活度上有很大限制,遂转战Python(我对于大语种庞大的类库感到力不从心,喜欢用脚本语言来快速编辑.执行)真正开始学习Python第一天,我奋战到深夜三点,勉强完成了可以替代先前用“cmd+photoshop快捷批处理”实现的切图工具,执行效率大概是先前的10倍.为什么说是“勉强”,因为输出图像质量没Photoshop输出的好.Pyt

Python数据挖掘—特征工程—数据处理

概念: 特征工程:本质上是一项工程活动,他目的是最大限度地从原始数据中提取特征以供算法和模型使用特征工程的重要性:特征越好,灵活性越强.模型越简单.性能越出色. 特征工程包括:数据处理.特征选择.维度压缩量纲不一: 就是单位,特征的单位不一致,不能放在一起比较通过:0-1标准化.Z标准化.Normalizer归一化数据处理-归一化: 1 import pandas 2 3 data=pandas.read_csv( 4 "C:\\Users\\Jw\\Desktop\\python_wo

Python数据挖掘—特征工程—特征选择

如何选择特征根据是否发散及是否相关来选择方差选择法先计算各个特征的方差,根据阈值,选择方差大于阈值的特征方差过滤使用到的是VarianceThreshold类,该类有个参数threshold,该值为最小方差的阈值,然后使用fit_transform进行特征值过滤相关系数法先计算各个特征对目标值的相关系数,选择更加相关的特征递归特征消除法使用一个基模型来进行多轮训练,经过多轮训练后,保留指定的特征数通过estimator将基模型设置为线性模型(可以设置为其他类型),通过n_fea