【转载】梯度下降法

梯度下降法[编辑]

(重定向自最速下降法

梯度下降法是一个最优化算法,通常也称为最速下降法

目录

[隐藏]

描述[编辑]

有关梯度下降法的描述

梯度下降法,基于这样的观察:如果实值函数  在点  处可微且有定义,那么函数 在  点沿着梯度相反的方向  下降最快。

因而,如果

对于  为一个够小数值时成立,那么 

考虑到这一点,我们可以从函数  的局部极小值的初始估计  出发,并考虑如下序列  使得

因此可得到

如果顺利的话序列  收敛到期望的极值。注意每次迭代步长  可以改变。

右侧的图片示例了这一过程,这里假设  定义在平面上,并且函数图像是一个形。蓝色的曲线是等高线(水平集),即函数  为常数的集合构成的曲线。红色的箭头指向该点梯度的反方向。(一点处的梯度方向与通过该点的等高线垂直)。沿着梯度下降方向,将最终到达碗底,即函数  值最小的点。

例子[编辑]

梯度下降法处理一些复杂的非线性函数会出现问题,例如Rosenbrock函数

其最小值在  处,数值为。但是此函数具有狭窄弯曲的山谷,最小值  就在这些山谷之中,并且谷底很平。优化过程是之字形的向极小值点靠近,速度非常缓慢。

下面这个例子也鲜明的示例了"之字"的上升(非下降),这个例子用梯度上升(非梯度下降)法求  的极大值(非极小值,实际是局部极大值)。

 

缺点[编辑]

由上面的两个例子,梯度下降法的缺点是 [1]:

  • 靠近极小值时速度减慢。
  • 直线搜索可能会产生一些问题。
  • 可能会‘之字型‘地下降。

参阅[编辑]

参考文献[编辑]

  • Mordecai Avriel (2003). Nonlinear Programming: Analysis and Methods. Dover Publishing. ISBN 0-486-43227-0.
  • Jan A. Snyman (2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms.Springer Publishing. ISBN 0-387-24348-8

分类

时间: 2024-11-25 09:45:57

【转载】梯度下降法的相关文章

一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

  Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之一,其训练常采用最大似然准则,且为防止过拟合,往往在目标函数中加入(可以产生稀疏性的) L1 正则.但对于这种带 L1 正则的最大熵模型,直接采用标准的随机梯度下降法(SGD)会出现效率不高和难以真正产生稀疏性等问题. 本文为阅读作者 Yoshimasa Tsuruoka, Jun'chi Tsujii 和 Sophia Ananiadou 的论文 Stochastic Gradient Descent Tr

一种并行随机梯度下降法

  本文是读完 Jeffrey Dean, Greg S. Corrado 等人的文章 Large Scale Distributed Deep Networks (2012) 后的一则读书笔记,重点介绍在 Google 的软件框架 DistBelief 下设计的一种用来训练大规模深度神经网络的随机梯度下降法 - Downpour SGD,该方法通过分布式地部署多个模型副本和一个"参数服务器",同时实现了模型并行和数据并行,且对机器失效问题具有很好的容错性.结合 Adagrad 自适应

线性回归与梯度下降法

前言 最近在看斯坦福的<机器学习>的公开课,这个课程是2009年的,有点老了,不过讲的还是很好的,廓清了一些我以前关于机器学习懵懂的地方.我的一位老师曾经说过: 什么叫理解?理解就是你能把同一个事情用自己的语言表达出来,并且能让别人听得懂. 本着这样的原则,同时也为了证明自己是”理解”的,于是决定打算在学习<机器学习>公开课的时候,写一些系列文章类巩固学到的东西.机器学习中的很多内容都是和数学推导相关的,而我本人的数学功底并不扎实,所以文章也许会写得比较慢.另外,这个系列的文章大体

最优化问题(牛顿法和梯度下降法)

---恢复内容开始--- http://www.zhihu.com/question/19723347 引自知乎 牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快.如果更通俗地说的话,比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大.所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部. 根据wiki上的解释,从几何上说,牛顿法就是用一个

FISTA的由来:从梯度下降法到ISTA &amp; FISTA

前言: FISTA(A fast iterative shrinkage-thresholding algorithm)是一种快速的迭代阈值收缩算法(ISTA).FISTA和ISTA都是基于梯度下降的思想,在迭代过程中进行了更为聪明(smarter)的选择,从而达到更快的迭代速度.理论证明:FISTA和ISTA的迭代收敛速度分别为O(1/k2)和O(1/k). 本篇博文先从解决优化问题的传统方法"梯度下降"开始,然后引入ISTA,再上升为FISTA,最后在到其应用(主要在图像的去模糊方

【机器学习】机器学习入门05 - 梯度下降法

1. 梯度下降法介绍 1.1 梯度 在多元函数微分学中,我们都接触过梯度(Gradient)的概念. 回顾一下,什么是梯度? 梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模). 这是百度百科给出的解释. 事实上,梯度的定义,就是多元函数的偏导数组成的向量.以二元函数 f(x,y) 为例.fx, fy 分别表示 f  对x,y的偏导数.则 f 在(x, y)处的梯度grad f = ( f

梯度下降法

梯度下降法在凸优化中应用很广泛.经常使用于求凸函数极值. 梯度是个向量.其形式为 一般是表示函数上升最快的方向.因此.我们仅仅须要每一步往梯度方向走一小步.终于就能够到达极值点,其表现形式为: 初始点为x0. 然后往梯度的反方向移动一小步r到x1. 再次往梯度反方向移动r到x2,... ....终于会越来越接近极值点min的. 迭代时的公式为X(n+1) = X(n) - r * grad(f) 以下举样例说明梯度下降法求极值点的有效性: #!/usr/bin/python # -*- codi

【统计学习】随机梯度下降法求解感知机模型

1. 感知机学习模型 感知机是一个二分类的线性分类问题,求解是使误分类点到超平面距离总和的损失函数最小化问题.采用的是随机梯度下降法,首先任意选取一个超平面w0和b0,然后用梯度下降法不断地极小化目标损失函数,极小化过程中不是一次使所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降.假设误分类点集合M是固定的,那么损失函数L(w,b)的梯度: 随机选取一个误分类点,对w和b进行更新: 其中n是步长,又称为学习率(learning rate),这样通过迭代可以使损失函数L(w,b)不

转:梯度下降法(上升法)的几何解释

梯度下降法是机器学习和神经网络学科中我们最早接触的算法之一.但是对于初学者,我们对于这个算法是如何迭代运行的从而达到目的有些迷惑.在这里给出我对这个算法的几何理解,有不对的地方请批评指正! 梯度下降法定义 (维基百科)梯度下降法,基于这样的观察:如果实值函数  在点  处可微且有定义,那么函数 在  点沿着梯度相反的方向  下降最快. 因而,如果                         对于  为一个够小数值时成立,那么 . 考虑到这一点,我们可以从函数  的局部极小值的初始估计  出发