Gradient Descent 和 Stochastic Gradient Descent（随机梯度下降法）

Gradient Descent(Batch Gradient)也就是梯度下降法是一种常用的的寻找局域最小值的方法。其主要思想就是计算当前位置的梯度，取梯度反方向并结合合适步长使其向最小值移动。通过柯西施瓦兹公式可以证明梯度反方向是下降最快的方向。

经典的梯度下降法利用下式更新参量，其中J(θ)是关于参量θ的损失函数，梯度下降法通过不断更新θ来最小化损失函数。当损失函数只有一个global minimal时梯度下降法一定会收敛于最小值（在学习率不是很大的情况下）

上式的梯度是基于所有数据的，如果数据量比较大时，这就会导致每次更新参量时都需要计算整个数据集而使计算量很大。

因此梯度下降法又衍生出一下其他形式，随机梯度下降法就是其中之一。顾名思义，所谓随机就是随便选取一个或一组数据去代替整个数据集来更新参数，这样计算量就会大大减少。很多文章中的随机梯度下降都只随机选取一个数据作为参考，因此有时也称为online-GD，当随机选取一组数据时又称mini-batch GD，其实本质上应该都是SGD（我是这么理解的。。），其参数更新如下。

随机选取的方式有几种包括：

1，随机随机排列数据后，迭代更新参量直至收敛

2，每次迭代时都进行数据随机排列

3，每次迭代时从数据中随机选取一个数据

这是Quora上一个关于GD与SGD的比较好的回答

时间： 2024-12-27 23:27:42

Gradient Descent 和 Stochastic Gradient Descent（随机梯度下降法）的相关文章

随机梯度下降法（Stochastic gradient descent, SGD）

BGD(Batch gradient descent)批量梯度下降法:每次迭代使用所有的样本(样本量小) Mold 一直在更新 SGD(Stochastic gradientdescent)随机梯度下降法:每次迭代使用一组样本(样本量大)Mold 把一批数据过完才更新一次针对BGD算法训练速度过慢的缺点,提出了SGD算法,普通的BGD算法是每次迭代把所有样本都过一遍,每训练一组样本就把梯度更新一次.而SGD算法是从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样

FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MINI-BATCH LEARNING. WHAT IS THE DIFFERENCE?

FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MINI-BATCH LEARNING. WHAT IS THE DIFFERENCE? In order to explain the differences between alternative approaches to estimating the parameters of a model,

Gradient Descent 和 Stochastic Gradient Descent（随机梯度下降法）

Gradient Descent 和 Stochastic Gradient Descent（随机梯度下降法）的相关文章

随机梯度下降法（Stochastic gradient descent, SGD）

FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MINI-BATCH LEARNING. WHAT IS THE DIFFERENCE?

Batch Gradient Descendent (BGD) & Stochastic Gradient Descendent (SGD)

一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

Hulu机器学习问题与解答系列 | 二十四：随机梯度下降法

梯度下降法、随机梯度下降法、小批量梯度下降法

用随机梯度下降法(SGD)做线性拟合

【统计学习】随机梯度下降法求解感知机模型

一种并行随机梯度下降法