反向梯度方向是函数值局部下降最快的方向

在SLAM中,机器学习中等关于梯度下降的应用还是蛮多的,但是关于“反向梯度方向是函数值局部下降最快的方向”等概念的解释,不是特别清晰,下面附上自己的一些理解。

名词解析:

梯度:

梯度是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着梯度的方向变化最快。

在平面区域D上具有一阶连续偏导数,为一个单位向量,如果下列的极限值存在

此方向导数记为

则称这个极限值是沿着方向的方向导数,那么随着的不同,我们可以求出任意方向的方向导数.

简化计算如下:

,

那么我们可以得到:

(为向量与向量之间的夹角)

那么此时如果要取得最大值,也就是当为0度的时候,也就是向量(这个方向是一直在变,在寻找一个函数变化最快的方向)与向量(这个方向当点固定下来的时候,它就是固定的)平行的时候,方向导数最大.方向导数最大,也就是单位步伐,函数值朝这个反向变化最快.

函数值下降最快的方向就是和向量相同的方向.那么此时我把A向量命名为梯度(当一个点确定后,梯度方向是确定的),也就是说明了为什么梯度方向是函数变化率最大的方向了!!!

那么沿着反向梯度方向前进就可以找到最快的下降方式了。

原文地址:https://www.cnblogs.com/wongyi/p/9882131.html

时间: 2024-07-29 15:07:12

反向梯度方向是函数值局部下降最快的方向的相关文章

为什么局部下降最快的方向就是梯度的负方向?

https://blog.csdn.net/red_stone1/article/details/80212814什么是梯度?对于梯度下降算法(Gradient Descent Algorithm),我们都已经很熟悉了.无论是在线性回归(Linear Regression).逻辑回归(Logistic Regression)还是神经网络(Neural Network)等等,都会用到梯度下降算法.我们先来看一下梯度下降算法的直观解释: 假设我们位于黄山的某个山腰处,山势连绵不绝,不知道怎么下山.于

为什么梯度反方向是函数值下降最快的方向?

转载:知乎专栏忆臻https://zhuanlan.zhihu.com/p/24913912 刚接触梯度下降这个概念的时候,是在学习机器学习算法的时候,很多训练算法用的就是梯度下降,然后资料和老师们也说朝着梯度的反方向变动,函数值下降最快,但是究其原因的时候,很多人都表达不清楚.所以我整理出自己的理解,从方向导数这个角度把这个结论证明出来,让我们知其然也知其所以然~ 下面我一开始不提梯度的概念,完全根据自己的理解进行下文的梳理,一步一步推出梯度的来历: 导数 导数的几何意义可能很多人都比较熟悉:

算法工程师<数学题/智力题>

<数学题/智力题> 1.如果一个女生说,她集齐了十二个星座的前男友,我们应该如何估计她前男友的数量? https://blog.csdn.net/FnqTyr45/article/details/80248927 2.如何理解矩阵的秩? https://www.zhihu.com/question/21605094 3.矩阵低秩的意义? https://www.zhihu.com/question/28630628 4.如何理解矩阵特征值? https://www.zhihu.com/ques

线性回归、梯度下降 - Andrew Ng机器学习公开课笔记1.1

实例 首先举个样例.如果我们有一个二手房交易记录的数据集.已知房屋面积.卧室数量和房屋的交易价格,例如以下表: 假如有一个房子要卖,我们希望通过上表中的数据估算这个房子的价格. 这个问题就是典型的回归问题,这边文章主要讲回归中的线性回归问题. 线性回归(Linear Regression) 首先要明确什么是回归. 回归的目的是通过几个已知数据来预測还有一个数值型数据的目标值. 如果特征和结果满足线性关系,即满足一个计算公式h(x).这个公式的自变量就是已知的数据x,函数值h(x)就是要预測的目标

梯度下降、牛顿法和拉格朗日对偶性

这篇文章主要介绍梯度下降.牛顿法和拉格朗日对偶性的过程和一些原理的证明. 梯度下降: 假设$f(x),x\in R^{n}$,有一阶的连续偏导数,要求解的无约束最优化问题是: $\min \limits_{x\in R^{n}}f(x)$ $x^*$表示目标函数$f(x)$的极小点. 首先解释一下为什么梯度下降可行:对于一个有一阶连续偏导数的凸函数,若存在函数的极小值点,让x不断地往函数值减少的方向移动,最终会到达一个不动点,而这个不动点,就是函数f(x)的极小值点.选择负梯度方向,可以让x更快

梯度下降讲解(举例场景+数学分析)

本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而从数学上解释梯度下降算法的原理,最后实现一个简单的梯度下降算法的实例! 梯度下降的场景假设 梯度下降法的基本思想可以类比为一个下山的过程.假设这样一个场景:一个人被困在山上,需要从山上下来(找到山的最低点,也就是山谷).但此时山上的浓雾很大,导致可视度很低.因此,下山的路径就无法确定,他必须利用自己周围的信息去找到下山的路径.这个时候,他就可以利用梯度下降算法来帮助自己下山.具体来说就是,以他当前的所处的位置为基准,寻找这个位置最陡峭

(2)Deep Learning之线性单元和梯度下降

往期回顾 在上一篇文章中,我们已经学会了编写一个简单的感知器,并用它来实现一个线性分类器.你应该还记得用来训练感知器的『感知器规则』.然而,我们并没有关心这个规则是怎么得到的.本文通过介绍另外一种『感知器』,也就是『线性单元』,来说明关于机器学习一些基本的概念,比如模型.目标函数.优化算法等等.这些概念对于所有的机器学习算法来说都是通用的,掌握了这些概念,就掌握了机器学习的基本套路. 线性单元是什么? 感知器有一个问题,当面对的数据集不是线性可分的时候,『感知器规则』可能无法收敛,这意味着我们永

机器学习中最小二乘与梯度下降发的区别

http://www.zhihu.com/question/20822481 知乎用户,非文, 非理 Spirit_Dongdong.Wildog.mt Practices 等人赞同 同意 @张子权 的说法, 稍微再补充一下. 看问题估计, 题主可能是在学 machine learning 的东西, 所以才会有此问题. 但正如其他人指出的, 其实两种方法并不太具有可比性. 不过我当时在学的时候也有类似的问题. 当时我的问题是, 最小二乘法的矩阵解法和梯度下降法的区别在哪里? 我估摸着题主可能是想

机器学习算法(优化)之一:梯度下降算法、随机梯度下降(应用于线性回归、Logistic回归等等)

本文介绍了机器学习中基本的优化算法-梯度下降算法和随机梯度下降算法,以及实际应用到线性回归.Logistic回归.矩阵分解推荐算法等ML中. 梯度下降算法基本公式 常见的符号说明和损失函数 X :所有样本的特征向量组成的矩阵 x(i) 是第i个样本包含的所有特征组成的向量x(i)=(x(i)1,x(i)2...,x(i)n) y(i) 第i个样本的label,每个样本只有一个label,y(i)是标量(一个数值) hθ(x(i)) :拟合函数,机器学习中可以用多种类型的拟合函数 θ 是函数变量,