梯度下降法的三种形式BGD、SGD以及MBGD

阅读目录

  • 1. 批量梯度下降法BGD
  • 2. 随机梯度下降法SGD
  • 3. 小批量梯度下降法MBGD
  • 4. 总结

在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点。

下面我们以线性回归算法来对三种梯度下降法进行比较。

一般线性回归函数的假设函数为:

对应的能量函数(损失函数)形式为:

下图为一个二维参数(θ0和θ1)组对应能量函数的可视化图:

1 批量梯度下降法BGD

批量梯度下降法(Batch Gradient Descent,简称BGD)是梯度下降法最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行更新,其数学形式如下:

(1) 对上述的能量函数求偏导:

(2) 由于是最小化风险函数,所以按照每个参数θ的梯度负方向来更新每个θθ: θ的梯度负方向来更新每个θ:θ:

具体的伪代码形式为:

从上面公式可以注意到,它得到的是一个全局最优解,但是每迭代一步,都要用到训练集所有的数据,如果样本数目mm很大,那么可想而知这种方法的迭代速度!所以,这就引入了另外一种方法,随机梯度下降。

优点:全局最优解;易于并行实现;

缺点:当样本数目很多时,训练过程会很慢。

从迭代的次数上来看,BGD迭代的次数相对较少。其迭代的收敛曲线示意图可以表示如下:

2 批量梯度下降法SGD

由于批量梯度下降法在更新每一个参数时,都需要所有的训练样本,所以训练过程会随着样本数量的加大而变得异常的缓慢。随机梯度下降法(Stochastic Gradient Descent,简称SGD)正是为了解决批量梯度下降法这一弊端而提出的。

将上面的能量函数写为如下形式:

利用每个样本的损失函数对θ求偏导得到对应的梯度,来更新θ:

θ:

具体的伪代码形式为:

随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,对比上面的批量梯度下降,迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次。

但是,SGD伴随的一个问题是噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。

优点:训练速度快;

缺点:准确度下降,并不是全局最优;不易于并行实现。

从迭代的次数上来看,SGD迭代的次数较多,在解空间的搜索过程看起来很盲目。其迭代的收敛曲线示意图可以表示如下:

3  小批量梯度下降法MBGD

有上述的两种梯度下降法可以看出,其各自均有优缺点,那么能不能在两种方法的性能之间取得一个折衷呢?

即,算法的训练过程比较快,而且也要保证最终参数训练的准确率,而这正是小批量梯度下降法(Mini-batch Gradient Descent,简称MBGD)的初衷。

MBGD在每次更新参数时使用b个样本(b一般为10),其具体的伪代码形式为:

4 总结

Batch gradient descent: Use all examples in each iteration;

Stochastic gradient descent: Use 1 example in each iteration;

Mini-batch gradient descent: Use b examples in each iteration.

推荐阅读:

为什么要对数据进行归一化处理?

logistic函数和softmax函数

视频讲解|为什么神经网络参数不能全部初始化为全0

原文链接:https://mp.weixin.qq.com/s/fXlbB7KmiX0iIv6xwSxNIA

原文地址:https://www.cnblogs.com/onemorepoint/p/9166247.html

时间: 2024-11-10 17:24:14

梯度下降法的三种形式BGD、SGD以及MBGD的相关文章

解梯度下降法的三种形式BGD、SGD以及MBGD

原帖地址:https://zhuanlan.zhihu.com/p/25765735           在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点. 下面我们以线性回归算法来对三种梯度下降法进行比较. 一般线性回归函数的假设函数为: $$h_\theta=\sum_{j=0}^n\theta_jx_j$$   对应的损失函数为: $$J_{train}(\theta)=\frac1{2m}\s

[Machine Learning] 梯度下降法的三种形式BGD、SGD以及MBGD

在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点. 下面我们以线性回归算法来对三种梯度下降法进行比较. 一般线性回归函数的假设函数为: $h_{\theta}=\sum_{j=0}^{n}\theta_{j}x_{j}$ 对应的能量函数(损失函数)形式为: $J_{train}(\theta)=1/(2m)\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2}$

[ch04-05] 梯度下降的三种形式

系列博客,原文在笔者所维护的github上:https://aka.ms/beginnerAI, 点击star加星不要吝啬,星越多笔者越努力. 4.5 梯度下降的三种形式 我们比较一下目前我们用三种方法得到的w和b的值,见表4-2. 表4-2 三种方法的结果比较 方法 w b 最小二乘法 2.056827 2.965434 梯度下降法 1.71629006 3.19684087 神经网络法 1.71629006 3.19684087 这个问题的原始值是可能是\(w=2,b=3\),由于样本噪音的

Qt学习 之 多线程程序设计(QT通过三种形式提供了对线程的支持)

QT通过三种形式提供了对线程的支持.它们分别是, 一.平台无关的线程类 二.线程安全的事件投递 三.跨线程的信号-槽连接. 这使得开发轻巧的多线程Qt程序更为容易,并能充分利用多处理器机器的优势.多线程编程也是一个有用的模式,它用于解决执行较长时间的操作而不至于用户界面失去响应.在Qt的早期版本中,在构建库时有不选择线程支持的选项,从4.0开始,线程总是有效的. 线程类 Qt 包含下面一些线程相关的类: QThread 提供了开始一个新线程的方法 QThreadStorage 提供逐线程数据存储

javascript oop编程 — 实现继承的三种形式

javascript  oop编程  - 实现继承的三种形式[1] (1)模拟类的方式, 我们都知道js是原型继承机制,不存在class和instance分离的这种方式 假设,我们有两个类 function  Animal(){ this.name = "animal"; this.eat = function(){ consle.log("eating"); } } function Cat(){ this.say = function(){ console.lo

a^b%c 的三种形式

求a^b%c,(1  <= a,b <= 2^62, 1 <= c <= 10^9) 最基本的快速幂 _LL mod_exp(_LL a, _LL b, int c) { _LL ans = 1; _LL t = a%c; while(b) { if(b&1) ans = ans*t%c; t = t*t%c; b >>= 1; } return ans; } 求a^b%c,(1 <= a,b,c <= 2^62) 因为c在long long范围内,

PHP数组输出三种形式 PHP打印数组

PHP数组输出三种形式 PHP打印数组 $bbbb=array("11"=>"aaa","22"=>"bbb");//方式一:只能输出值value不能输出keyforeach($bbbb as $color)echo $color; //方法二:value与key都可输出foreach($bbbb as $key=>$value)echo $key."=>".$value; //方法

js判断变量初始化的三种形式

<1> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title></title> <script type="text/javascript"> //js判断变量初始化有三种形式 var x; if (x == null) { alert("x为null"); } if (typeof (x) == "un

信息标记的三种形式

标记后的信息可形成信息组织结构,增肌了信息维度,可用于通信,存储或展示,利于程序的理解和运用 XML是被设计用来描述数据的,重点是:什么是数据,如何存放数据. HTML是被设计用来显示数据的,重点是:显示数据以及如何显示数据更好上面. 信息标记的三种形式:xml, json,yaml yaml说明 =>无类型键值对key:value,缩进表示所属关系,- 表示并列关系, |表示块数据,#表示注释 信息提取