机器学习:多变量线性回归

**************************************

注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的《机器学习》课程笔记。博主深感学过课程后,不进行总结很容易遗忘,根据课程加上自己对不明白问题的补充遂有此系列博客。本系列博客包括线性回归、逻辑回归、神经网络、机器学习的应用和系统设计、支持向量机、聚类、将维、异常检测、推荐系统及大规模机器学习等内容。

**************************************

多变量线性回归

多维特征

目前为止,我们探讨了单变量(特征)的回归模型,现在我们对房价模型增加更多的特征,如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为(x ,x ,...,x )。

多变量梯度下降

与单变量线性回归类似,在多变量线性回归中,我们也构建一个代价函数,则这个代价函数是所有建模误差的平方和,即:

其中:

我们的目标和单变量线性回归问题中一样,是要找出使得代价函数最小的一系列参数。  多变量线性回归的批量梯度下降算法为:

左边为单变量学习方法,右边为多变量学习方法。

梯度下降法实践

1 特征缩放

在我们面对多维特征问题的时候,我们要保证这些特征都具有相近的尺度,这将帮助梯度下降算法更快地收敛。

以房价问题为例,假设我们使用两个特征,房屋的尺寸和房间的数量,尺寸的值为 0-2000平方英尺,而房间数量的值则是0-5,以两个参数分别为横纵坐标,绘制代价函数的等高线图能,看出图像会显得很扁,梯度下降算法需要非常多次的迭代才能收敛。

解决的方法是尝试将所有特征的尺度都尽量缩放到-1 到1之间。如图:

最简单的方法是令:

2 学习率

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同,我们不能提前预知,我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。

梯度下降算法的每次迭代受到学习率的影响,如果学习率 α过小,则达到收敛所需的迭代次数会非常高;如果学习率α 过大,每次迭代可能不会减小代价函数,可能会越过局部最小值导致无法收敛。

通常可以考虑尝试些学习率:α=0.01,0.03,0.1,0.3,1,3,10

特征和多项式回归

如房价预测问题:

线性回归并不适用于所有数据,有时我们需要曲线来适应我们的数据,通常我们需要先观察数据然后再决定准备尝试怎样的模型。另外,我们可以将模型转化为线性回归模型。如下图 x->size:

注:如果我们采用多项式回归模型,在运行梯度下降算法前,特征缩放非常有必要。

正规方程

到目前为止,我们都在使用梯度下降算法,但是对于某些线性回归问题,正规方程方法是更好的解决方案,它可以直接解出参数。如:

假设我们的训练集特征矩阵为X(包含了 x0=1)并且我们的训练集结果为向量 y,则利用正规方程解出向量:

以下表示数据为例:

则根据公式:   可以得到所需参数。

梯度下降与正规方程的比较:

******************

作者:hao_09

时间:2015/8/8

文章地址:http://blog.csdn.net/lsh_2013/article/details/47374045

******************

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-07 12:08:23

机器学习:多变量线性回归的相关文章

机器学习——多变量线性回归

[一.多变量线性回归模型] 多变量线性回归是指输入为多维特征的情况,例如: 在上图中可看出房子的价格price由四个变量(size.number of bedrooms.number of floors .age of home)决定,为了能够预测给定条件(四个变量)下的房子的价格(y),我们需要建立相应的线性回归模型. 假设有n个变量,则相应的多变量线性回归模型如下: 注意上图中的x是指一个训练样本,即每个训练样本都是一个(n+1)维向量(包含附加的x0=1) [二.代价函数] 多变量线性回归

Stanford机器学习---第二讲. 多变量线性回归 Linear Regression with multiple variable

原文:http://blog.csdn.net/abcjennifer/article/details/7700772 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归.Octave Tutorial.Logistic Regression.Regularization.神经网络.机器学习系统设计.SVM(Support Vector Machines 支持向量机).聚类.降维.异常检测.大规模机器学习等章节.所有内容均来自Standford公开课machine

【stanford 机器学习】学习笔记(2)--多变量线性回归(Linear Regression with Multiple Variables)

课程来自斯坦福大学吴恩达教授 machine learning: https://www.coursera.org/learn/machine-learning/home/welcome 多变量线性回归主要包括以下部分: 1) Multiple features(多维特征) 2) Gradient descent for multiple variables(梯度下降在多变量线性回归中的应用) 3) Gradient descent in practice I: Feature Scaling(

机器学习(3)——多变量线性回归

[一.多变量线性回归模型] 多变量线性回归是指输入为多维特征的情况.比如: 在上图中可看出房子的价格price由四个变量(size.number of bedrooms.number of floors .age of home)决定.为了能够预測给定条件(四个变量)下的房子的价格(y),我们须要建立对应的线性回归模型. 如果有n个变量,则对应的多变量线性回归模型例如以下: 注意上图中的x是指一个训练样本,即每一个训练样本都是一个(n+1)维向量(包括附加的x0=1) [二.代价函数] 多变量线

Stanford公开课机器学习---3.多变量线性回归 (Linear Regression with multiple variable)

3.多变量线性回归 (Linear Regression with multiple variable) 3.1 多维特征(Multiple Features) n 代表特征的数量 x(i)代表第 i 个训练实例,是特征矩阵中的第 i 行,是一个向量(vector). x(i)j代表特征矩阵中第 i 行的第 j 个特征,也就是第 i 个训练实例的第 j 个特征. 多维线性方程: hθ=θ0+θ1x+θ2x+...+θnx 这个公式中有 n+1 个参数和 n 个变量,为了使得公式能够简化一些,引入

[ch05-00] 多变量线性回归问题

系列博客,原文在笔者所维护的github上:https://aka.ms/beginnerAI, 点击star加星不要吝啬,星越多笔者越努力. 第5章 多入单出的单层神经网络 5.0 多变量线性回归问题 5.0.1 提出问题 问题:在北京通州,距离通州区中心15公里的一套93平米的房子,大概是多少钱? 房价预测问题,成为了机器学习的一个入门话题,著名的波士顿的房价数据及相关的比赛已经很多了,但是美国的房子都是独栋的,前院后院停车库游泳池等等参数非常多,初学者可能理解起来有困难.我们不妨用简化版的

Ng第四课:多变量线性回归(Linear Regression with Multiple Variables)

4.1  多维特征 4.2  多变量梯度下降 4.3  梯度下降法实践 1-特征缩放 4.4  梯度下降法实践 2-学习率 4.5  特征和多项式回归 4.6  正规方程 4.7  正规方程及不可逆性(可选) 4.1  多维特征 目前为止,探讨了单变量/特征的回归模型,现在对房价模型增加更多的特征 增添更多特征后,引入一系列新的注释: n  代表特征的数量 代表第 i  个训练实例,是特征矩阵中的第 i 行,是一个向量(vector).    (图中给转置了) 代表特征矩阵中第 i 行的第j 个

Machine Learning笔记(三) 多变量线性回归

Machine Learning笔记(三) 多变量线性回归 注:本文内容资源来自 Andrew Ng 在 Coursera上的 Machine Learning 课程,在此向 Andrew Ng 致敬. 一.多特征(Multiple Features) 笔记(二)中所讨论的房价问题,只考虑了房屋尺寸(Size)一个特征,如图所示: 这样只有单一特征的数据,往往难以帮助我们准确的预测房价走势.因此,考虑采集多个特征的数据值,往往能提升预测效果.例如,选取如下4个特征作为输入值时的情况: 对一些概念

deep learning 练习 多变量线性回归

多变量线性回归(Multivariate Linear Regression) 作业来自链接:http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex3/ex3.html 这次的多变量线性回归问题,输入特征向量X是二维的,一个维度表示房间面积,一个维度表示房间数量,输出Y是房子的价格. 这一次试着自己找了一下合适的学习速率和迭代次数 合适的学习速率通过看损失