梯度下降算法分类总结

引言

梯度下降法 (Gradient Descent Algorithm，GD) 是为目标函数J(θ)，如代价函数(cost function), 求解全局最小值（Global Minimum）的一种迭代算法。

为什么使用梯度下降法

我们使用梯度下降法最小化目标函数J(θ)。在使用梯度下降法时，首先初始化参数值，然后一直改变这些值，直到得到全局最小值。其中，我们计算在每次迭代时计算代价函数的导数，然后使用如下公式同时更新参数值：

α表示学习速率（learning rate）。

梯度下降法的工作原理

下面的伪代码能够解释其详细原理：

1. 初始化参数值

2. 迭代更新这些参数使目标函数J(θ)不断变小。

梯度下降法的类型

基于如何使用数据计算代价函数的导数，梯度下降法可以被定义为不同的形式（various variants）。确切地说，根据使用数据量的大小（the amount of data），时间复杂度（time complexity）和算法的准确率（accuracy of the algorithm），梯度下降法可分为：

1. 批量梯度下降法（Batch Gradient Descent, BGD）；

2. 随机梯度下降法（Stochastic Gradient Descent, SGD）；

3. 小批量梯度下降法（Mini-Batch Gradient Descent, MBGD）。

批量梯度下降法原理

这是梯度下降法的基本类型，这种方法使用整个数据集（the complete dataset）去计算代价函数的梯度。每次使用全部数据计算梯度去更新参数，批量梯度下降法会很慢，并且很难处理不能载入内存（don’t fit in memory）的数据集。在随机初始化参数后，按如下方式计算代价函数的梯度：

其中，m是训练样本（training examples）的数量。

Note:

1. 如果训练集有3亿条数据，你需要从硬盘读取全部数据到内存中；

2. 每次一次计算完求和后，就进行参数更新；

3. 然后重复上面每一步；

4. 这意味着需要较长的时间才能收敛；

5. 特别是因为磁盘输入/输出（disk I/O）是系统典型瓶颈，所以这种方法会不可避免地需要大量的读取。

上图是每次迭代后的等高线图，每个不同颜色的线表示代价函数不同的值。运用梯度下降会快速收敛到圆心，即唯一的一个全局最小值。批量梯度下降法不适合大数据集。

随机梯度下降法原理

批量梯度下降法被证明是一个较慢的算法，所以，我们可以选择随机梯度下降法达到更快的计算。随机梯度下降法的第一步是随机化整个数据集。在每次迭代仅选择一个训练样本去计算代价函数的梯度，然后更新参数。即使是大规模数据集，随机梯度下降法也会很快收敛。随机梯度下降法得到结果的准确性可能不会是最好的，但是计算结果的速度很快。在随机化初始参数之后，使用如下方法计算代价函数的梯度：