梯度、Hessian矩阵、平面方程的法线以及函数导数的含义

本文转载自:

Xianling Mao的专栏

===========================================================================

想必单独论及“ 梯度、Hessian矩阵、平面方程的法线以及函数导数”等四个基本概念的时候,绝大部分人都能够很容易地谈个一二三,基本没有问题。

其实在应用的时候,这几个概念经常被混淆,本文试图把这几个概念之间的关系整理一下,以便应用之时得心应手。

这四个概念中,Hessian矩阵是最不容易混淆,但却是很多人难以记住的概念,其它三个概念很容易记住,但却在某些时候很容易混淆。

  • Hessian矩阵:设有凸函数f(X),X是向量(x1,x2,..., xn),Hessian矩阵M定义为:M的第i行,第j列元素为df(X)/dxidxj, 即为f(X)对于变量xi和xj的二次偏导数。
  • 梯度:设有凸函数f(X),X是向量(x1,x2,..., xn),函数f(X)在点X0处的梯度是一个向量,等于(df(X0)/dx1, df(X0)/dx2, ...., df(X0)/dxn), 即是对于各个变量的偏导数的向量。例子:如果方程是z=f(x,y),梯度是在XOY平面内的一个向量,与z无关。因此要特别注意梯度不是点(X,f(X))处的切线方向。
  • 平面方程的法线:设平面方程Ax+By+Cz+D = 0,向量(A, B, C)为这个平面的法线方向。
  • 函数导数:二维直线的方程y= kx+b,我们说k是直线的斜率;二维曲线y=f(x)的导数f ‘(x)表示在点x处的切线的斜率,注意是切线的斜率,不是切线的方向,它是标量,不是向量。任意曲线y=f(x1,x2,...xn),对每一个变量求取偏导数,得到一个向量(df(X)/dx1, df(X)/dx2, ...., df(X)/dxn),这个向量就是函数在点X处的梯度,即梯度是表示曲线f(X)在X处变化最剧烈的方向,特别注意梯度并不是在点(X, f(X))处的切线方向, 梯度只是在点(X, f(X))处的切线方向在X构成的“平面”上的投影。注意,对于二维直线y=kx+b,它也是可以求取梯度的,它的梯度是向量(k),只有一个值,表示的是x方向上的向量,大小是x方向上的单位变化导致y变化量的大小,即就是切线的斜率。

一个问题,我们把二维直线方程y=-kx-b写为平面方程的形式,kx + y+b = 0,这个时候怎么理解?我们可以理解为把y=-kx-b这条直线往z轴的两个方向拉伸得到的平面,就是kx+y+b=0。那么这个平面方程的法线就是(k, 1, 0),这个法线向量与平面kx+y+b=0垂直,这个时候如果我们用XOY平面去与这个平面相交,即令z=0,就表示直线y=-kx-b,因此法线(k,1)是与直线垂直的。注意y=-kx -b的导数的含义:(-k)表示的是x轴方向的梯度,值为直线的斜率。

一定要注意平面方程的形式与其它三个概念的方程形式是不同的,平面方程的右边是0,而其它三个概念的方程中必须有一个变量在等式的左边,可以表示为f(X),或者y等形式,本质上f(X)和y都表示的是一个变量,只有方程的形式对的时候才能适用相关的计算,例如,我们不能对方程Ax+By+Cz+D =0,使用梯度或者导数的计算,这个地方非常容易混淆,特此提醒!

pku,sewm,shinning

==========================

以下内容转载自:http://blog.sina.com.cn/s/blog_662234020100q2vh.html,谢谢!

在数学中,海塞矩阵(Hessian matrix 或 Hessian)是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵,此函数如下:

如果 f 所有的二阶导数都存在,那么 f 的海塞矩阵即:

H(f)ij(x) = DiDjf(x)

其中  ,即

二阶偏导数矩阵也就所谓的海赛矩阵(Hessian matrix)
一元函数就是二阶导,多元函数就是二阶偏导组成的矩阵
求向量函数最小值时用的,矩阵正定是最小值存在的充分条件。
经济学中常常遇到求最优的问题,目标函数是多元非线性函数的极值问题尚无一般的求解方法,但判定局部极小值的方法是有的,就是用海赛矩阵,是变量向量二阶偏导数构成的矩阵,矩阵正定是局部极小点的充分条件。

时间: 2024-10-12 23:16:47

梯度、Hessian矩阵、平面方程的法线以及函数导数的含义的相关文章

Hessian矩阵【转】

在数学中,海塞矩阵是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵,一元函数就是二阶导,多元函数就是二阶偏导组成的矩阵.求向量函数最小值时可以使用,矩阵正定是最小值存在的充分条件.经济学中常常遇到求最优的问题,目标函数是多元非线性函数的极值问题,尚无一般的求解方法,但判定局部极小值的方法就是用hessian矩阵: 在x0点上,hessian矩阵是负定的,且各分量的一阶偏导数为0,则x0为极大值点. 在x0点上,hessian矩阵式正定的,且各分量的一阶偏导数为0,则x0为极小值点. 矩阵是

Jacobian矩阵和Hessian矩阵

1.Jacobian矩阵 在矩阵论中,Jacobian矩阵是一阶偏导矩阵,其行列式称为Jacobian行列式.假设 函数 $f:R^n \to R^m$, 输入是向量 $x \in R^n$ ,输出为向量 $f(x) \in R^m$ ,那么对应的Jacobian矩阵 $J$ 是一个 $m*n$ 的矩阵,其定义如下: \[\mathbf J = \frac{d\mathbf f}{d\mathbf x} = \begin{bmatrix}\dfrac{\partial \mathbf{f}}{\

使用python求海森Hessian矩阵

考虑一个函数$y=f(\textbf{x}) (R^n\rightarrow R)$,y的Hessian矩阵定义如下: 考虑一个函数:$$f(x)=b^Tx+\frac{1}{2}x^{T}Ax\\其中b^T=[1,3,5], A在代码中可读$$ 求该函数在x = [0,0,0]处海森矩阵值的python代码如下: import torch # 定义函数 x = torch.tensor([0., 0, 0], requires_grad=True) b = torch.tensor([1.,

海森(Hessian)矩阵

在图的鞍点位置,?标函数在x轴?向上是局部最小值,但在y轴?向上是局部最?值. 假设?个函数的输?为k维向量,输出为标量,那么它的海森矩阵(Hessian matrix)有k个特征值(参?附录中“数学基础”?节).该函数在梯度为0的位置上可能是局部最小值.局部最?值或者鞍点. •当函数的海森矩阵在梯度为零的位置上的特征值全为正时,该函数得到局部最小值.• 当函数的海森矩阵在梯度为零的位置上的特征值全为负时,该函数得到局部最?值.•当函数的海森矩阵在梯度为零的位置上的特征值有正有负时,该函数得到鞍

像素点的Hessian矩阵

最近开始学习图像处理相关知识,碰到对像素点求黑塞矩阵查了资料才搞懂. 给定一个图像f(x,y)上的一点(x,y).其黑塞矩阵如下: 因为导数的公式是f'(x)=(f(x+dx)-f(x))/dx在数字图像里,通常用相邻像素的灰度值来计算,它们的距离 dx=1.一阶导数就是相邻像素的灰度值的差f'(x) = f(x+1)-f(x)从二维图像来看,沿X方向和Y方向的一阶偏导数分别为f'x(x,y) = f(x+1,y)-f(x,y)f'y(x,y) = f(x,y+1)-f(x,y)把一阶偏导数的计

特征提取之SIFT(尺度不变性特征变换)

SIFT(Scale-invariant feature transform,尺度不变性特征变换)是一种检测局部特征的算法,该算法通过求一幅图中的特征点(interest points,or corner points)及其有关scale和orientation的描述子得到特征并进行图像特征点匹配,获得了良好效果,详细解析如下: 算法描述 整个算法分为以下几个部分: 1.构建尺度空间 尺度空间理论目的是模拟图像数据的多尺度特性,高斯卷积核是实现尺度变换的唯一卷积核,于是一副二维图像的尺度空间定义

【特征匹配】SURF原理与源码解析

SURF (Speed Up Robust Features)是SIFT改进版也是加速版,提高了检测特征点的速度,综合性能要优于SIFT. 下面先逐次介绍SURF的原理,最后解析opencv上SURF源码. 转载请注明出处:http://blog.csdn.net/luoshixian099/article/details/47778143 1.积分图像 SURF是对积分图像进行操作,从而实现了加速,采用盒子滤波器计算每个像素点的Hessian矩阵行列式时,只需要几次加减法运算,而且运算量与盒子

SURF原理分析

本文转载自http://blog.csdn.net/luoshixian099/article/details/47807103. SURF (Speed Up Robust Features)是SIFT改进版也是加速版,提高了检测特征点的速度,综合性能要优于SIFT. 1.积分图像 SURF是对积分图像进行操作,从而实现了加速,采用盒子滤波器计算每个像素点的Hessian矩阵行列式时,只需要几次加减法运算,而且运算量与盒子滤波器大小无关,所以能够快速的构成出SURF的尺度金字塔. 积分图像中每

前馈神经网络-反向传播(Back Propagation)公式推导走读

构造:输入神经元个数等于输入向量维度,输出神经元个数等于输出向量维度.(x1=(1,2,3),则需要三个输入神经元) 一 前向后传播 隐层: 输出层: 一般化,向量表示   二 反向传播 1计算梯度delta:均方误差,利用了sigmoid函数导数的有趣性. 输出层梯度: -->  eg.  隐层梯度:  -->   eg.  2更新权重: eg输出层: eg隐层: 备注 反向传播的公式推导 0目标函数: 1梯度下降法优化目标函数, 怎么计算出误差对于每个权重的偏导数呢? 2netj是第j个神