机器学习入门之单变量线性回归（上）——梯度下降法

在统计学中，线性回归（英语：linear regression）是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归，大于一个自变量情况的叫做多元回归（multivariate linear regression）。——————维基百科

　　一直以来，这部分内容都是ML的敲门砖，吴恩达教授在他的课程中也以此为第一个例子，同时，本篇也参考了许多吴教授的内容。

　　在这里，我简单把自变量称为x，因变量称为y。在单变量线性回归中，x是一个一维的连续值。

　　单变量线性回归即是为所给数据，拟合一个最优方程，也就是划出一条最符合原始数据的线（通常要求数据为连续值）。

　　在本篇，我们将用梯度下降的方法，拟合出一条与原始数据最接近的直线，换言之，找到拟合效果最好的直线方程。

　　设直线方程如下：

　　　　（θ0即是常数项，或者说是一个常数偏移值）

　　在学习梯度下降法之前，我们还需要了解一些前缀知识，包括但不限于：

归一化（数据预处理）

　　归一化公式：

　　　　

　　归一化是一种把数据映射到[0, 1]区间内的预处理，在本例中，这样处理主要是为了提高梯度下降收敛的速度。

cost 函数

　　cost函数(function)是一个评估回归模型是否拟合得好的函数，cost越低的函数，说明模型拟合数据集越好。

　　在本例中，采用了比较常用的方差，即

　　　　

梯度 (gradient)以及迭代项的推导

　　梯度是函数在变化最快的方向上的方向导数，它是偏导的一种应用（这部分知识可参考微积分或高等数学内容，虽然即使不了解也可直接使用推论，但如果想深入学习的话还是吃透为好）。按梯度的定义可知：

　　

　　这部分是对θ1的偏导，对θ0的偏导可自行推导，与以上差别不大。若有疑惑（为什么对cost 函数求梯度？），请往下看。

　　了解完以上内容后，我们知道，对于给定的θ1和θ0，我们凭借cost 函数就能评估出他们的好坏（cost越小，拟合越好）。同时，我们知道不论对于θ1/0来说，必然存在某个最准确、拟合效果最好的值，一旦偏离这个值，偏离得越远，拟合效果就越差，cost 函数的值也就越大。

　　假设θ0恒为0，那么cost 函数关于θ1的函数的图像应当为一个类似山谷的形状，如下图：

　　　　　　

　　最低点即使拟合最好的θ1（cost最小）。

　　同理，假设θ0不恒定，那么图像将有两个自变量，形状大致像一个碗，如下图：

　　　　　　（图源吴教授课程）

　　易得，在‘碗’的最低点（θ0‘, θ1‘）即是拟合效果最好的θ0与θ1，那么如何找到这个最低点呢？

　　梯度下降是这么认为的，首先随机取一个点，然后按梯度方向去迭代点，让点越来越趋近，最后收敛于最低点。

　　打个比方：人在山上想下山，他环顾四周，控制一定的步伐，按最近的路径走下去，就能最快抵达山下。

　　原理很简单，但是这个迭代公式该如何求呢？

　　答案也不难，就是按照梯度的概念来：

　　　　　　　（偏导部分在前缀知识部分有说明）

　　伪代码：

　　　　① 随机初始化点

　　　　② 按照一定的比例/步伐（学习率），往梯度向下的方向迭代

　　　　③ 收敛或精度足够时停止

　　可能有的人不太懂收敛的原因，这部分涉及到微积分的知识，大致这样：

　　当点越趋近最低点时，偏导会越来越小，直至为0，此时收敛。可以认为在接近最低点的过程中，切向量的值逐渐减小，到达最低点时，切向量为0，此时不论如何迭代，θ的值都不再变化。

　　我们知道，前面的原理部分并没有涉及到α学习率（learning rate）这个概念，那么这个东西是要干什么呢？

　　看过吴教授课程的同学可能知道，在下降的过程中，如果步伐太大的话，是无法收敛到最低点的，如果不加上α来控制步伐大小，在很多情况下，都可能导致无法找到最低点。

　　为了解决这个问题，梯度下降引入了α来控制下降的步伐大小，确保能够收敛。但同时，α太小的话，也会导致收敛过慢。

　　需要着重说明的是θ1和θ2应该严格同步更新，按我的理解来，这是因为梯度是基于当前点的最大变化值，如果异步更新的话，比方说我们先更新θ1，然后再遍历更新θ0，此时更新θ0是基于新的θ1，所以不满足梯度的要求。

　　

　　顺带一提，梯度下降总会收敛于局部最小值。不过在单变量线性回归中，局部最小值即是全局最小值。

　　

　　以上就是单变量线性回归的内容，接下来我们将尝试应用于数据集：

　　给出一个数据集（工作经验与年薪）如下：

YearsExperience	Salary
1.1	39343.00
1.3	46205.00
1.5	37731.00
....	....

　　文末将给出下载地址。

　　首先对数据进行归一化，提高收敛速度。然后我们简单地设置α为0.01，精度为1e-4，最大迭代次数为1e4。

　　这里是拟合效果图：

　　

　　可以看到效果还是比较理想的，接下来是cost的变化图像：

　　

　　可以看到大致迭代3000次的时候基本收敛了，由于收敛值大于精度，所以程序把迭代次数都执行了一遍。

　　

　　总结：

　　　　这部分内容应该说相当好上手，主要把握好梯度这个概念，之后就都不难了。并且梯度下降在机器学习中有比较广泛的应用，所以对它的学习必不可少。

　　　　数据集和代码我都推到github上了，有需要请点击：https://github.com/foolishkylin/workspace/tree/master/machine_learning/getting_started/gradient_descent/liner_regression_single

原文地址：https://www.cnblogs.com/rosehip/p/10983543.html

时间： 2024-10-10 13:11:51

机器学习入门之单变量线性回归（上）——梯度下降法的相关文章

Stanford机器学习课程笔记——单变量线性回归和梯度下降法

Stanford机器学习课程笔记--单变量线性回归和梯度下降法 1. 问题引入单变量线性回归就是我们通常说的线性模型,而且其中只有一个自变量x,一个因变量y的那种最简单直接的模型.模型的数学表达式为y=ax+b那种,形式上比较简单.Stanford的机器学习课程引入这个问题也想让我们亲近一下machine learning这个领域吧~吴恩达大神通过一个房屋交易的问题背景,带领我们理解Linear regression with one variable.如下: 不要看这个问题简答,大神就是大神

Stanford机器学习Week 1—单变量线性回归

本篇讲述以下内容: 单变量线性回归代价函数梯度下降单变量线性回归回顾下上节,在回归问题中,我们给定输入变量,试图映射到连续预期结果函数上从而得到输出.单变量线性回归就是从一个输入值预测一个输出值.输入/输出的对应关系就是一个线性函数. 下面是一个根据房屋面积预测房屋价格的例子. 假设有一个数据集,我们称作训练集,数据集包括房屋面积和房屋价格数据. x:表示输入变量,也叫特征变量. y:表示输出变量,也叫目标变量. (xi,yi):表示一个识训练样本,训练集的一行.i 表示第 i 个训练

机器学习：单变量线性回归及梯度下降

******************************************************************************* 注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的<机器学习>课程笔记.博主深感学过课程后,不进行总结很容易遗忘,根据课程加上自己对不明白问题的补充遂有此系列博客.本系列博客包括线性回归.逻辑回归.神经网络.机器学习的应用和系统设计.支持向量机.聚类.将维.异常检测.推荐系统及大规模机器学习等内容. *******

Andrew Ng机器学习第一章——单变量线性回归

监督学习算法工作流程 h代表假设函数,h是一个引导x得到y的函数如何表示h函数是监督学习的关键问题线性回归:h函数是一个线性函数代价函数在线性回归问题中,常常需要解决最小化问题.代价函数常用平方误差函数来表示代价函数就是用于找到最优解的目的函数,这也是代价函数的作用 ps:尽可能简化问题去理解一些抽象概念,如单一的参数变化等等可以利用代价函数去寻找你拟合效果最好的假设函数的参数当参数很多时,利用图表来寻找最小代价函数就变得比较复杂,故引出梯度下降法. 梯度下降法最小化任意代价函数J

机器学习门户网站——单变量线性回归

线性回归的概念.在高中的数学书出现了. 给你一些样本点,怎样找出一条直线,使得最逼近这些样本点. 给出一个样例:如果 x 是房子面积,y是房子价格.确定一条直线须要theta0和theta1. 给出x,我们就能够计算出房子的价格 h(x) = theta0+theta1*x 关键是怎样计算出theta0和theta1,也就是怎样找出这么一条直线呢? 在这里,引入一个概念,叫做cost function.m表示样本个数,也就是训练样本数目这是一个square error.学过统计的应该常常见到

机器学习【第二篇】单变量线性回归

吴恩达机器学习笔记整理--单变量线性回归通过模型分析,拟合什么类型的曲线. 一.基本概念 1.训练集由训练样例(training example)组成的集合就是训练集(training set), 如下图所示,其中(x,y)是一个训练样本,训练集中每一行表示一个训练样本;(x^i,y^i)表示第i个训练样本. 2.假设函数h 使用某种学习算法对训练集的数据进行训练, 我们可以得到假设函数(Hypothesis Function), 如下图所示. 在房价的例子中,假设函数就是一个房价关于房子面

机器学习入门——单变量线性回归

线性回归的概念,在高中数学书里就出现过. 给你一些样本点,如何找出一条直线,使得最逼近这些样本点. 给出一个例子:假设 x 是房子面积,y是房子价格,确定一条直线需要theta0和theta1. 给出x,我们就可以计算出房子的价格 h(x) = theta0+theta1*x 关键是如何计算出theta0和theta1,也就是如何找出这么一条直线呢? 在这里,引入一个概念,叫做cost function.m表示样本个数,也就是训练样本数目这是一个square error,学过统计的应该经常见到

机器学习之单变量线性回归（Linear Regression with One Variable）

1. 模型表达(Model Representation) 我们的第一个学习算法是线性回归算法,让我们通过一个例子来开始.这个例子用来预测住房价格,我们使用一个数据集,该数据集包含俄勒冈州波特兰市的住房价格.在这里,我要根据不同房屋尺寸所售出的价格,画出我的数据集: 我们来看这个数据集,如果你有一个朋友正想出售自己的房子,如果你朋友的房子是1250平方尺大小,你要告诉他们这房子能卖多少钱. 那么,你可以做的一件事就是构建一个模型,也许是条直线.从这个数据模型上来看,也许你可以告诉你的朋友,他大概

机器学习 Machine Learning（by Andrew Ng）----第二章单变量线性回归(Linear Regression with One Variable)

第二章单变量线性回归(Linear Regression with One Variable) <模型表示(Model Representation)> <代价函数(Cost Function)> <梯度下降(Gradient Descent)

猜你喜欢

UVa 11624 大火蔓延的迷宫

https://vjudge.net/problem/UVA-11624 题意:有一个大火蔓延的迷宫,迷宫中有障碍格,而所有着火的格子都会往四周蔓延.求出到达边界格子时的最短时间. 思路:复杂了一点的 ...

树莓派安装Transmission-daemon出现的问题

1,安装时发现默认的源里面没有transmission-daemon包 [email protected]:/etc/apt/sources.list.d $ sudo apt-get install ...

Uva 11922 Splay

Splay(伸展树)实现可分裂与合并的序列对于BST,除了Treap树之外,还有一种Splay的伸展树,他能快速的分裂与合并. 重要的操作是伸展操作,将一个指定的结点 x 旋转到根的过程. 分三种情 ...

刘轩：教你赢得社交圈正面评价

刘轩的透心心理课程每次都是干货满满,收获多多,愿意记下来,愿意实践中去很好的体验,多多的去感受. 一开始刘轩就开门见山指出,虽然我们现在的社交网络非常丰富,网络表情丰富,网络交流很多,但是依然是“见面 ...

安装nginx和php

首先我用的是Linux Mint 17,debian系的应该都差不多,其他的发行版类似吧. 1.对PHP支持目前各种web 服务器对PHP的支持一共有三种: (1)通过web 服务器内置的模块来实现 ...

从一个简单的Java单例示例谈谈并发

一个简单的单例示例单例模式可能是大家经常接触和使用的一个设计模式,你可能会这么写 public class UnsafeLazyInitiallization { private static Un ...

格而知之15：我所理解的Block（1）

1.Block 本质上是一个struct结构体,在这个结构体中,最重要的成员是一个函数(当然除函数外还有其他重要的成员). 2.在开始解析Block之前,首先来回顾一下Block的格式.Block相关 ...

hdu1028 划分数

题意是将一个整数N划分成不超过N个整数的和, 我们定义d[i][j]为j划分成不超过i个整数的和的方案数, 那么d[i][j] = d[i][j-i](全大于0) + d[i-1][j](不全大于0) ...

scala 简要： Actor

actor提供了并发程序中与传统的基于锁的结构不同的另一种选择,通过尽可能避免锁和共享状态,actor更容易地设计出正确.没有死锁或争用状况的程序.Scala提供了actor的简单实现,akka(ht ...

Chips CodeForces - 333B

Chips CodeForces - 333B 题意:有一个n*n的棋盘,其中有m个格子被禁止.在游戏开始前要将一些芯片(?)放到四条边上(但不能是角上).游戏开始后,每次操作将每一个芯片移动到它四周 ...

Android蓝牙开发浅析【转】

本文转载自:http://blog.csdn.net/geekdonie/article/details/7487761 由于近期正在开发一个通过蓝牙进行数据传递的模块,在参考了有关资料,并详细阅读了 ...

【网络流24题----15】汽车加油行驶问题

喜闻乐见的分层图最短路,注意到了加油站是强制要加满油的 1 #include<iostream> 2 #include<cstdio> 3 #include<algori ...

hibernate一值多字段模糊查询

public Page getCoordByPage(Page queryHandler, TCoordinate conditions) { DetachedCriteria dc = Detach ...

银行卡识别让移动支付So Easy

说起移动支付,相信大家都不陌生,他已经在我们让的吃穿住行发生巨大的变化.移动支付目前已经进入的高速发展的阶段,就在前几天,苹果宣布新增26家合作银行和信用合作社,目前与其合作的银行金融机构至少有124 ...

Android（java）学习笔记244：多媒体之surfaceView

1. SurfaceView: 完成单位时间内界面的快速切换(游戏界面流畅感). 我们之前知道一般的View,只能在主线程里面显示,主线程中更新UI.但是SurfaceView可以在子线程中里 ...

使用swift写sprite Kit的模仿微信打飞机游戏

通过写这个东西来学习swift和sprite Kit,参考自https://github.com/croath/PlaneWarOSX,联系了原作者,他也表示感兴趣. 传送门:https://gith ...

CSU 1802 小X的战斗力【拓扑dp】

题目链接题意:n个人,每个人有一个能力值.给出m组关系A, B, 表示A的能力值大于B的能力值. 问:m组关系中是否有自相矛盾的?若不矛盾,问:第1个人在所有人的能力值中排名第几?有多少人的能力值的 ...

I2C协议->裸机程序->adapter驱动程序分析

开发板:mini2440 内核 :linux2.6.32.2 参考 :韦东山毕业班I2C视频教程 1.i2c协议简要分析 i2c中线是一种由 PHILIPS 公司开发的串行总线,用于连接微控制器及 ...

地址

好文地址我的成长磨练:每天写博客开发者的黄金时代=运维人员的恶梦? Linux下Nagios的安装与配置 linux下IPTABLES配置详解 CactiEZ V10.1 中文版 Cacti中文解 ...

poj 2342 && hdu 1520

Anniversary party Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.033 s.