数值优化（三、六）

线搜索方法

线搜索方法的基本过程都是在每一次迭代中先计算出一个优化方向\(p_k\),再在这个方向上对目标函数做一维优化，即选取合适的\(\alpha_k\),使\(x_{k+1}=x_k+\alpha p_k\)达到优化目的。一般来说，选取\(p_k=-B_k^{--1}\nabla f_k\)，其中\(B_k\)是一个对称正定矩阵，\(B_k\)的选取有多种选择，比如在牛顿法中，\(B_k\)就是Hessian，而在逆牛顿法中，\(B_k\)是Hessian的近似。由于\(p_k=-B_k^{--1}\nabla f_k\),\(B_k\)正定，可以知道\(p_k\)确实是下降方向。

搜索步长

定义\[\Phi(\alpha)=f(x_k+\alpha p_k) \quad \alpha >0\]步长选取就是该函数的局部最优化问题，对此不需要太高的准确度，不能在这个问题上花费很多时间，所以只需要给出一个差不多的解就可以了。步长搜索过程分为两个阶段--bracketing-phase和bisection(or interpolation)-phase,前者找到一个包含期望步长的区间，后者在这个区间里面计算出一个好的步长。为此，先给搜索步长施加几个要求，首先就是搜索步长需要使得函数下降，但这显然不够，于是还有下面的条件。

Wolfe Condition

充分下降条件

\[f(x_k+\alpha p_k) \leq f(x_k)+c_1\alpha \nabla f_k^T p_k\]

示意图:

curvature condition

\[\nabla f (x_k+\alpha_k p_k)^Tp_k \geq c_2\nabla f_k^T p_k \quad 0 < c_1<c_2<1\]

示意图:

两个条件合起来称为Wolfe-condition，在实际应用中，\(c_1\)通常取得比较小，比如\(10^{-4}\)。\(c_2\)在牛顿和拟牛顿方法中通常取0.9，在共轭梯度法中通常取0.1。

将curvature condition改为\[|\nabla f (x_k+\alpha_k p_k)^Tp_k| \leq c_2|\nabla f_k^T p_k|\]得到的条件称为strong Wolfe condition

在Wolfe condition和strong Wolfe condition下，满足条件的步长是存在的：

The Goldstein condition

Goldstein condition和Wolfe condition出发点相同，都是在保证充足的下降情况下，又避免搜索步长过小。\[f(x_k)+(1-c)\alpha_k \nabla f_k^T p_k \leq f(x_k+\alpha_k p_k)\leq f(x_k)+c\alpha_k \nabla f_k^T p_k\quad 0<c<\frac{1}{2}\]Goldstein condition相对于Wolfe condition的缺点是，它的第一个不等式有可能排除了所有极小点。

backtracking

即使只对步长施加充分下降条件，只要适当选取步长，也是可以的，这里就要用到称为backtracking的方法。

在这个过程中，初始步长在牛顿和拟牛顿方法中取为1，在其他方法中可取为不同的值。

## 收敛理论

其中\(\theta_k\)是\(\nabla f_k\)与\(p_k\)的夹角。将这个定理中的wolfe condition换为goldstein 或strong wolfe定理任然成立。

最速下降法

可知最速下降法收敛速度是线性的

牛顿法

原文地址：https://www.cnblogs.com/mathematic-offering/p/9381284.html

时间： 2024-10-05 10:17:30

数值优化（三、六）

线搜索方法

搜索步长

Wolfe Condition

The Goldstein condition

backtracking

最速下降法

牛顿法

数值优化（三、六）的相关文章

Android 性能优化三布局优化ViewStub标签的使用

UVA 10883 - Supermean（组合数学+数值优化）

centos mysql 优化第六节课

数值优化（Numerical Optimization）学习系列-文件夹

【SQL server初级】数据库性能优化三：程序操作优化

数据库性能优化三：程序操作优化

uva 10883 - Supermean(组合数学+数值优化)

【数值优化】基础

数值优化：计算基本理论