机器学习--线性回归与梯度算法

线性回归(Linear Regression),亦称为直线回归,即用直线表示的回归,与曲线回归相对。若因变量Y对自变量X1、X2…、Xm的回归方程是线性方程,即μy=β01X12X2 +…βmXm,其中β0是常数项,βi是自变量Xi的回归系数,M为任何自然数。这时就称Y对X1、X2、…、Xm的回归为线性回归。

简单回归:

只有一个自变量的线性回归称为简单回归,如下面示例:

X表示某商品的数量,Y表示这些不同数量商品的总价格

x=[0, 1, 2, 3, 4, 5]

y=[0, 17, 45, 55, 85, 99]

二维坐标中绘图如下图:

现在当商品数量 X = 6时,估计商品总价是多少?

我们可以很明显的看到,商品总价随商品的数量上升而上升,这是一个典型的线性回归。

因为只有一个自变量X,我们假设线性回归模型: Y = a * X + b

我们需要求出最合适的a,b值,使得直线:Y = a * X + b 与上图的趋势相拟合,这时候才能去预测不同商品数量X下的总价Y。

最小二乘法:

为了求出最合适的a b ,我们引入最小二乘法。

最小二乘法,亦称最小二乘法估计。由样本观测值估计总体参数的一种常用方法。它用于从n对观测数据(x1,y1),(x2,y2),……,(xn,yn)确定x与y之间对应关系y=f(x)的一种最佳估计,使得观测值与估计值之差(即偏差)的平方和 H为最小。

最小二乘法能尽量消除偶然误差的影响,从而由一组观测数据求出最可靠、最可能出现的结果。

由上图我们可以很明显的看出直线Y = a * X + b过原点,即 b = 0

我们尝试不同的a值 得到的结果如下:

a = 19 时 H = 154

a = 20 时 H = 85

a = 21 时 H = 126

图像分别如下:

    

我们可以粗略得出结论 a = 20,b = 0 时,线性模型 Y = 20 * X 与样本数据拟合的比较好。

所以当商品数量 X = 6 时,我们可以粗略估计总价Y = 20 * 6 = 120

多元回归:

大于一个自变量的线性回归叫做多元回归。

上面的例子只是一个自变量,处理起来比较简单,但是若自变量有很多,假设自变量有m个,为 [ x1,x2,x3,x4.....xm ]

这时候我们假设的回归系数(即权重)也需要有m个,即我们假设的线性模型是 Y =  X0 +  X1*W1 + X2*W2 + X3*W3 + ....... + Xm*Wm 

为了计算方便,我们去W0 = 1

这样:Y =  X0*W0 +  X1*W1 + X2*W2 + X3*W3 + ....... + Xm*Wm

写成向量形式:

W = [W0,W1 , W2 ,W3 , .... ,Wm] 

X = [ X0, X1 , X2 , X, .... , Xm]

Y = WT * X (WT为向量W的转置)

观测值与估计值之差(即偏差)的平方和:

为了方便后面计算,我们在H的左边乘上二分之一,即:

上面公式中 n 表示训练样本的数目,m 表示每条训练样本 的特征(自变量)个数,上标表示属于第 j 个 样本,下标表示第 i 个特征(自变量值),表示第 j 个样本总价观测值

现在H是关于W0,W1,W2....Wm的函数,我们需要通过合适的方法求出最适合的W值,才能得出一个比较好的线性回归方程。与简单回归相比,这里我们很难通过观察与尝试不同的w值来求解,我们需要采用最优化算法。

梯度算法:

常见的最优化算法有梯度下降法(Gradient Descent)、牛顿法和拟牛顿法(Newton‘s method & Quasi-Newton Methods)、共轭梯度法(Conjugate Gradient)、 启发式优化方法等,本文详细介绍梯度算法。

明确下我们现在的目标:我们需要通过梯度算法求出---当在H取得最小的情况下,W0 ,W1 ,W2 ,W3 , ....... ,Wm的值,从而写出回归方程。

梯度算法分为梯度上升算法 和 梯度下降算法。梯度下降算法的基本思想是:要找到某函数的最小值,最好的方法是沿着该函数的梯度方向探寻,梯度上升则相反。对于一个有两个未知数x,y的函数f(x,y),梯度表示为:

对于Z = f(x,y),使用梯度下降算法的意味着 沿X轴方向移动,沿Y的方向移动,函数f(x,y)必须要在待计算的点上有定义并且可微。

可以通俗理解为:

梯度实际上是函数值变化最快的方向。比如说,你站在一个山上,梯度所指示的方向是高度变化最快的方向。你沿着这个方向走,能最快的改变(增加或是减小)你所在位置的高度,但是如果你乱走,可能走半天所在位置高度也没有变化多少。也就是说,如果你一直沿着梯度走,你就能最快的到达山的某个顶峰或低谷。所以实际上,梯度算法是用来搜索局部极小值或极大值的,它是实际应用中一种非常高效,高速且可靠的方法。

用梯度下降法找出最小H

我们前面看到:

H是关于W = [W0 ,W1 ,W2 ,W3 , ....... ,Wm]的函数,H的梯度如下:

这个时候对于每一个Wi的梯度:

我们假设每次沿着梯度方向更新的步长为 α,所以W的值更新公式可写为:

所以梯度下降算法的伪代码如下:

每个回归系数(即每个W值)的每个值都为1

重复R次:

  计算整个数据集的梯度

使用 更新回归系数W

实例:

 用梯度下降 算法求下面商品数据的线性回归方程

我们假设线性回归模型为总价Y = a + b * X1 + c * X(X1 X2 分别表示商品1,2的数量)

我们需要求出回归系数W = [ a, b, c]

梯度下降算法如下:

 1 import numpy as np
 2
 3 def grad_desc(train_data, train_labels):
 4     """梯度下降"""
 5     data_mat = np.matrix(train_data)
 6     label_mat = np.matrix(train_labels).transpose()
 7     n = np.shape(data_mat)[1]
 8     # 步长
 9     alpha = 0.001
10     # 最大循环次数
11     max_cycles = 100
12     # 初始化回归系数weights
13     weights = np.ones((n, 1))
14     for index in range(max_cycles):
15         h = data_mat * weights-label_mat
16         weights = weights - alpha * data_mat.transpose() * h
17         # 返回压平的系数数组
18     return np.asarray(weights).flatten()

我们用上面算法得到的回归系数为

[ 1.7218815 4.24881047 5.28838946]

随机梯度算法:

上述梯度算法中,循环R = 100次,每一次更新回归系数都需要遍历整个数据集,如果数据样本很大,那么计算时间复杂度将会非常高。

所以一般每次使用一个样本点来更新回归系数,称为随机梯度算法。

随机梯度下降算法伪代码如下:

所有回归系数初始化为1

  重复R次:

    循环每一个样本:

      计算该样本的梯度

    使用 更新回归系数W

修改后的算法如下:

 1 import numpy as np
 2
 3 def advanced_random_grad_desc(train_data, train_labels):
 4     """随机梯度下降改进"""
 5     data_mat = np.asarray(train_data)
 6     label_mat = np.asarray(train_labels)
 7     m, n = np.shape(data_mat)
 8     # 步长
 9     alpha = 0.001
10     # 初始化回归系数weights
11     weights = np.ones(n)
12     max_cycles = 500
13     for j in range(max_cycles):
14         data_index = list(range(m))
15         for i in range(m):
16             random_index = int(np.random.uniform(0, len(data_index)))
17             h = sum(data_mat[random_index] * weights)-label_mat[random_index]
18             weights = weights - alpha * h * data_mat[random_index]
19             del data_index[random_index]
20     return weights

计算得到的回归系数为:

[ 1.27137416 4.31393524 5.2757683 ]

我们可以得到线性回归方程为:

Y = 1.27 + 4.31 * X1 + 5.28 * X2

写在后面的话:

本文的完整代码已上传:https://gitee.com/beiyan/machine_learning/tree/master/gradient

随机梯度下降(上升)算法使用非常广泛,效果也非常好,后续文章将使用梯度算法来解决一些问题。不例外,梯度算法也是有缺点的,如靠近极小值时收敛速度减慢、直线搜索时可能会产生一些问题、可能会“之字形”地下降等,另外下降或上升步长的选择也会影响最后得到的回归系数,我们可以通过改变一些参数来测试回归的效果。

原文地址:https://www.cnblogs.com/beiyan/p/8404817.html

时间: 2024-08-07 15:52:47

机器学习--线性回归与梯度算法的相关文章

机器学习入门:线性回归及梯度下降

机器学习入门:线性回归及梯度下降 本文会讲到: (1)线性回归的定义 (2)单变量线性回归 (3)cost function:评价线性回归是否拟合训练集的方法 (4)梯度下降:解决线性回归的方法之一 (5)feature scaling:加快梯度下降执行速度的方法 (6)多变量线性回归   Linear Regression 注意一句话:多变量线性回归之前必须要Feature Scaling! 方法:线性回归属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个

Stanford机器学习课程笔记——单变量线性回归和梯度下降法

Stanford机器学习课程笔记--单变量线性回归和梯度下降法 1. 问题引入 单变量线性回归就是我们通常说的线性模型,而且其中只有一个自变量x,一个因变量y的那种最简单直接的模型.模型的数学表达式为y=ax+b那种,形式上比较简单.Stanford的机器学习课程引入这个问题也想让我们亲近一下machine learning这个领域吧~吴恩达大神通过一个房屋交易的问题背景,带领我们理解Linear regression with one variable.如下: 不要看这个问题简答,大神就是大神

机器学习笔记02:多元线性回归、梯度下降和Normal equation

在<机器学习笔记01>中已经讲了关于单变量的线性回归以及梯度下降法.今天这篇文章作为之前的扩展,讨论多变量(特征)的线性回归问题.多变量梯度下降.Normal equation(矩阵方程法),以及其中需要注意的问题. 单元线性回归 首先来回顾一下单变量线性回归的假设函数: Size(feet2) Price($1000) 2104 460 1416 232 1534 315 852 178 - - 我们的假设函数为 hθ(x)=θ0+θ1x 多元线性回归 下面介绍多元线性回归(Linear R

机器学习(Andrew Ng)笔记(二):线性回归模型 &amp; 梯度下降算法

线性回归模型 回忆一下第一节课提出的预测房屋每平方单位价格的例子.在这个例子中,我们可以画一条直线,尽量符合数据点的分布趋势.我们已经知道这是一个回归问题,即预测连续值的输出.实际上,这是一个典型的线性回归模型.之所以这样定义,大概是因为回归方程可以用一个线性函数来表示. 我们可以假设这个线性函数为: 这是一个关于x的一元一次方程.其中两个参数的值我们还不知道,要根据训练集中的数据求解出来.这里要定义几个概念,我们已经有的数据,即房屋面积与单价的对应数据对,被称作训练集.x作为房屋面积,称作输入

机器学习(1)之梯度下降(gradient descent)

机器学习(1)之梯度下降(gradient descent) 题记:最近零碎的时间都在学习Andrew Ng的machine learning,因此就有了这些笔记. 梯度下降是线性回归的一种(Linear Regression),首先给出一个关于房屋的经典例子, 面积(feet2) 房间个数 价格(1000$) 2104 3 400 1600 3 330 2400 3 369 1416 2 232 3000 4 540 ... ... .. 上表中面积和房间个数是输入参数,价格是所要输出的解.面

机器学习(5)之牛顿算法

机器学习(5)之牛顿算法 1. 牛顿迭代算法简介 设r是的根,选取 作为r的初始近似值,过点 做曲线 的切线L,L的方程为 ,求出L与x轴交点的横坐标 , 称x 1 为r的一次近似值. 过点 做曲线 的切线,并求该切线与x轴交点的横坐标 ,称 为r的二次近似值.重复以上过程,得r的近似值序列,其中, 称为r的 次近似值,上式称为牛顿迭代公式. 用牛顿迭代法解非线性方程,是把非线性方程线性化的一种近似方法.把 在点 的某邻域内展开成泰勒级数 ,取其线性部分(即泰勒展开的前两项),并令其等于0,即

机器学习-线性回归

Linear Regreesion         线性回归属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数训练的好不好(即此函数是否足够拟合训练集数据),挑选出最好的函数(cost function最小)即可.     Cost Function的用途:对假设的函数进行评价,cost function越小的函数,说明拟合训练数据拟合的越好:     1.最小二乘法:      何为最小二乘法,其实很简单.我们有很多的给定点,这时

机器学习定义及常用算法

转载自:http://www.cnblogs.com/shishanyuan/p/4747761.html?utm_source=tuicool 1 . 机器学习概念 1.1   机器学习的定义 在维基百科上对机器学习提出以下几种定义: l “ 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能 ” . l “ 机器学习是对能通过经验自动改进的计算机算法的研究 ” . l “ 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准. ” 一

FPGA机器学习之机器学习的n中算法总结2

前面已经说了很多的算法了.比如说退火算法,蚂蚁算法,文化算法,禁忌算法等等.接下来要写一些其他的机器学习算法.迁移学习,集成算法,向量机,在线学习等算法. 我毛华望QQ849886241.技术博客http://blog.csdn.net/my_share 迁移学习算法:大概理解一下就是,机器学习了一些知识后,可以更容易学会其他的知识,举个例子,学会桌子的人,更容易学会认识椅子.学会下象棋的人,更容易学围棋.基于boosting的迁移学习算法.http://wenku.baidu.com/link