机器学习中(Feature Scaling)特征缩放处理的matlab实现方式

在进行特征缩放的时候,其一般做法是(X-mu)/sigma

mu:代表均值

sigma:代表标准差

在matlab中,函数mean可以求特征的均值,函数std可以求特征的标准差。

假设训练集为m,特征数量为n,特征矩阵为X,则X的size为 m*n。

则 mu = mean(X)返回值为一个1*n的向量,向量中每个值对应于每个特征的均值。

则 sigma = std(X) 返回值为一个1*n的向量,向量中每个值对应于每个特征的标准差。

为了进行特征缩放,我们需要使用matlab中另外一个函数repmat。

对于repmat函数,可以理解成Repeat Matrix .

官方帮助文档为:

  Repeat copies of array。

B = repmat(A,n) returns an array containing n copies of A in the row and column dimensions. The size of B is size(A)*n when A is a matrix.

repmat(A, n)表示分别在行和列上对于矩阵A拷贝n分。

例如:

A=

2 3;

3 4

则B = repmat(A, 2);

B =

2 3 2 3
3 4 3 4
2 3 2 3
3 4 3 4

repmat(A, m, n)表示在列方向返回m个A的拷贝,在行方向返回n个A的拷贝。

B = repmat(A, 2, 1)

B =

2 3
3 4
2 3
3 4

对于实现特征缩放,可以使用repmat函数来实现,由以上的计算可知:

X 为 m*n 矩阵

mu 1*n 向量

sigma 1*n向量

为了对X中的每一列向量进行特征缩放,使用以下命令即可

X_norm = (X - repmat(mu,size(X,1),1)) ./ repmat(sigma,size(X,1),1);

即,首先将mu使用premat函数为m*n向量,本质为将m个mu向量,按行叠加成矩阵。

X - repmat(mu, size(X,1), 1)

即为X-mu的特征缩放。

对于(X-mu)/sigma的处理方式一样。

时间: 2024-12-07 15:36:55

机器学习中(Feature Scaling)特征缩放处理的matlab实现方式的相关文章

机器学习中怎样的特征才是好特征

讲座视频:What Makes a Good Feature? - Machine Learning Recipes #3 https://www.youtube.com/watch?v=N9fDIAflCMY 分类器只有在你使用好的feature时,才能有好的性能.提供或找出好的feature是使用机器学习时的最重要工作之一. 假设要对狗的类别进行分类,区分是greyhound还是labrador. 我们考虑两个特征,身高(inches)和眼睛颜色. 我们这里假设这两种狗眼睛只有blue和br

ng机器学习视频笔记(三) ——线性回归的多变量、特征缩放、标准方程法

ng机器学习视频笔记(三) --线性回归的多变量.特征缩放.标准方程法 (转载请附上本文链接--linhxx) 一.多变量 当有n个特征值,m个变量时,h(x)= θ0+θ1x1+θ2x2-+θnxn,其中可以认为x0=1.因此,h(x)= θTx,其中θ是一维向量,θ=[θ0, θ1-θn] T,x也是一维向量,x=[x0,x1..xn] T,其中x0=1. 二.特征缩放(Feature Scaling) 特征缩放的目的,是为了让每个特征值在数量上更加接近,使得每个特征值的变化的影响相对比较"

机器学习中的数据清洗与特征处理综述

背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富.通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向.目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐.筛选排序.搜索排序.用户建模等等,为公司创造了巨大的价值.本文主要介绍在美团的推荐与个性化团队实践中的数据清洗与特征挖掘方法.主要内容已经在内部公开课"机器学习InAction系列"讲过,本博客的内容主要是

机器学习中特征的处理及选择

基础概念 特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的.比如主成分分析就是将大量的数据属性转换为少数几个特征的过程.某种程度而言,好的数据以及特征往往是一个性能优秀模型的基础. 既然叫特征工程,自然涵盖了很多内容,而其中涉及到的比较重要的部分是特征的处理及选择. 特征处理包含: 数据清洗 数据规范化 特征构造与衍生 特征选择包含: 特征过滤 wrappe

机器学习中的数据标准化

标准化方法 Z-score Normalization Z-score normalization又叫?standardization(规范化),将特征进行缩放使得其具有均值为0,方差为1的标准正态分布的特性. \[ z = \frac{x-\mu}{\sigma} \] 其中均值\(\mu = \frac{1}{N} \sum_{i=1}^N (x_i)\),方差\(\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}\). 标准化特征使

浅谈Feature Scaling

浅谈Feature Scaling 定义:Feature scaling is a method used to standardize the range of independent variables or features of data. In data processing, it is also known as data normalization and is generally performed during the data preprocessing step.(来源于

机器学习中的范数规则化之(一)L0、L1与L2范数

机器学习中的范数规则化之(一)L0.L1与L2范数 [email protected] http://blog.csdn.net/zouxy09 转自:http://blog.csdn.net/zouxy09/article/details/24971995 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一

机器学习中的范数规则化

机器学习中的范数规则化之(一)L0.L1与L2范数 [email protected] http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正.谢谢. 监督机器学习问题无非就是"minimizeyour er

paper 56 :机器学习中的算法:决策树模型组合之随机森林(Random Forest)

周五的组会如约而至,讨论了一个比较感兴趣的话题,就是使用SVM和随机森林来训练图像,这样的目的就是 在图像特征之间建立内在的联系,这个model的训练,着实需要好好的研究一下,下面是我们需要准备的入门资料: [关于决策树的基础知识参考:http://blog.csdn.net/holybin/article/details/22914417] 在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,所以叫做随机森林.随机森林中的决策树之间是没有关联的,当测试数据进入随机森