Armijo-Goldstein准则与Wolfe-Powell准则

Armijo-Goldstein准则与Wolfe-Powell准则是不精确的一维搜索的两大准则。

之所以要遵循这些准则是为了能使算法收敛(求最优解)。即要使我们的不精确的一维搜索的步长满足一定的规则,使之后的求最优解的过程不至于因为步长过大或者过小而不收敛。

Armijo-Goldstein准则

Armijo-Goldstein准则的核心思想有两个:①目标函数值应该有足够的下降;②一维搜索的步长α不应该太小。

我们来看看Armijo-Goldstein准则的数学表达式:

其中, 0<ρ<12

1)为什么要规定 ρ∈(0,0.5) 这个条件?其实可以证明:如果没有这个条件的话,将影响算法的超线性收敛性。具体的证明过程,大家可以参考袁亚湘写的《最优化理论与方法》一书,我没有仔细看,我觉得对初学者,不用去管它。
(2)第1个不等式的左边式子的泰勒展开式为:
f(xkkdk)=f(xk)+αkgkTdk+o(αk)
去掉高阶无穷小,剩下的部分为: f(xk)+αkgkTdk
而第一个不等式右边与之只差一个系数 ρ
我们已知了 gkTdk<0 (这是 dk 为下降方向的充要条件),并且 ρ∈(0,0.5) ,因此,1式右边仍然是一个比 f(xk) 小的数,即:
f(xk)+αkρgkTdk<f(xk)
也就是说函数值是下降的(下降是最优化的目标)。
(3)由于 ρ∈(0,0.5) 且 gkTdk<0 ( dk 是一个下降方向的充要条件),故第2个式子右边比第1个式子右边要小,即:
αk(1?ρ)gkTdkkρgkTdk<0
如果步长 α 太小的话,会导致这个不等式接近于不成立的边缘。因此,式2就保证了 α 不能太小。

我还要把很多书中都用来描述Armijo-Goldstein准则的一幅图搬出来说明一下

横坐标是 α ,纵坐标是 f ,表示在 xk,dk 均为常量、 α 为自变量变化的情况下,目标函数值随之变化的情况。
之所以说 xk,dk 均为常量,是因为在一维搜索中,在某一个确定的点 xk 上,搜索方向 dk 确定后,我们只需要找到一个合适的步长 α 就可以了。
当 x 为常量, α 为自变量时, f(x+αd) 可能是非线性函数(例如目标函数为 y=x2 时)。因此图中是一条曲线。
右上角的 f(xk+αdk) 并不是表示一个特定点的值,而是表示这条曲线是以 α 为自变量、 xk,dk 为常量的函数图形。
当 α=0 时,函数值为 f(xk) ,如图中左上方所示。水平的那条虚线是函数值为 f(xk) 的基线,用于与其他函数值对比。
f(xk)+αkρgkTdk 那条线在 f(xk) 下方(前面已经分析过了,因为 gkTdk<0 ), f(xk)+αk(1?ρ)gkTdk 又在 f(xk)+αkρgkTdk 的下方(前面也已经分析过了),所以Armijo-Goldstein准则可能会把极小值点(可接受的区间)判断在区间bc内。显而易见,区间bc是有可能把极小值排除在外的(极小值在区间ed内)。
所以,为了解决这个问题,Wolfe-Powell准则应运而生。

Wolfe-Powell准则

Wolfe-Powell准则也有两个数学表达式,其中,第一个表达式与Armijo-Goldstein准则的第1个式子相同,第二个表达式为

这个式子已经不是关于函数值的了,而是关于梯度的。
此式的几何解释为:可接受点处的切线斜率≥初始斜率的 σ 倍。
上面的图已经标出了 σgTkdk 那条线(即 e 点处的切线),而初始点( α=0 的点)处的切线是比 e 点处的切线要“斜”的,由于 σ∈(ρ,1) ,使得 e 点处的切线变得“不那么斜”了——不知道这种极为通俗而不够严谨的说法,是否有助于你理解。
这样做的结果就是,我们将极小值包含在了可接受的区间内( e 点右边的区间)。

Wolfe-Powell准则到这里还没有结束!在某些书中,你会看到用另一个所谓的“更强的条件”来代替(3)式,即:

这个式子和(3)式相比,就是左边加了一个绝对值符号,右边换了一下正负号(因为 gTkdk<0 ,所以 ?σgTkdk>0 )。
这样做的结果就是:可接受的区间被限制在了 [b,d] 内,如图:

图中红线即为极小值被“夹击”的生动演示。



转自   https://www.codelast.com/

时间: 2024-10-16 13:36:03

Armijo-Goldstein准则与Wolfe-Powell准则的相关文章

[css] 页面重构“鑫三无准则” 之“无宽度”准则

原创文章,转载请注明来自张鑫旭-鑫空间-鑫生活[http://www.zhangxinxu.com]本文地址:http://www.zhangxinxu.com/wordpress/?p=1152 一.关于“鑫三无准则” “鑫三无准则”这个概念早在去年我写“关于Google圆角高光高宽自适应按钮及其拓展”一文时就已经提到了.这是自己在页面重构的经验中总结出来的一套约束自己CSS的准则,即“无宽度”.“无图片”和“无浮动”,目的是使CSS布局模块化以及增强可扩展性. 此准则是针对我个人的,可能没有

最大最小准则(悲观准则)

所谓决策,简单地说就是做决定的意思,详细地说,就是为确定未来某个行动的目标,根据自己的经验,在占有一定信息的基础上,借助于科学的方法和工具,对需要决定的问题的诸因素进行分析.计算和评价,并从两个以上的可行方案中,选择一个最优方案的分析判断过程. 根据决策结局的多少,可以将决策分为确定型决策(每个方案只有一个结局)和不确定型决策(每个方案有多个结局). 由于不确定型决策问题所面临的几个自然状态是不确定,是完全随机的,使不确定型决策始终伴随着一定的盲目性.决策者的经验和性格常常在决策中起主导作用.决

3.6 批量维护来源准则/查看来源准则

3.6.1   业务方案描述 可以通过一个集成的界面,随时更新.查询各供应商的当月基准比例.当月累计下单比例.当月实际执行比例. 具有按照主管.采购员.采购分类等多种纬度供货比例批量下载功能,直接导出至EXECL,以方便下月来源准则的制定. 维护来源准则界面:新增表单,是一个可以修改比例的界面,也可以批量下载查询结果.仅能够修改当月来源准则比例,不允许修改过期月份的来源准则. 查询来源准则界面:是"维护来源准则"界面的一个辅助功能,仅用于查询来源准则,不能够修改,可以批量下载查询结果.

全是干货!UI设计的30条黄金准则!

http://www.wex5.com/portfolio-items/js-1/ 全是干货!UI设计的30条黄金准则! 总的来说,好的UI界面有几个特征:简洁.便利.目标明确.人性化.字面上看这几点貌似很简单,但是考虑到我们的营销目标.考虑到内容复杂度,要确确实实达到这个目标却非常困难.下面列出的这些经验,一直以来在WeX5应用开发者社群中反复被验证,简单实用.极具操作性,WeX5开发工具强烈推荐给所有应用开发者及爱好者! 注:内容转化率是指用户浏览页面的时候能被用户吸收的内容比率. 1. 尝

8.6 C2与通用准则

8.6 C2与通用准则 8.6.1 C2 审核模式 C2 等级(Class C2)是美国的国家计算机安全中心(NCSC)建立的一种安全等级,获准通过国防部的可信计算机安全评价标准(Trusted Computer Systems Evaluation Criteria,简称 TCSEC). C2 等级保证最小的允许的安全要求等级.它将产生大量的事件信息,所以对性能有负面的影响. C2 审核模式仍可在 SQL Server 中配置,但是它现在很少使用,或者甚至说它不适于使用.C2 安全标准已经由通

模型选择的几种方法--AIC,BIC,HQ准则

经常地,对一堆数据进行建模的时候,特别是分类和回归模型,我们有很多的变量可供使用,选择不同的变量组合可以得到不同的模型,例如我们有5个变量,2的5次方,我们将有32个变量组合,可以训练出32个模型.但是哪个模型更加的好呢? 选择最优模型的指导思想是从两个方面去考察:一个是似然函数最大化,另一个是模型中的未知参数个数最小化.似然函数值越大说明模型拟合的效果越好,但是我们不能单纯地以拟合精度来衡量模型的优劣,这样回导致模型中未知参数越来越多,模型变得越来越复杂,会造成过拟合.所以一个好的模型应该是拟

【原创】牛顿法和拟牛顿法

数据.特征和数值优化算法是机器学习的核心,而牛顿法及其改良(拟牛顿法)是机器最常用的一类数字优化算法,今天就从牛顿法开始,介绍几个拟牛顿法算法.本博文只介绍算法的思想,具体的数学推导过程不做介绍. 1. 牛顿法 牛顿法的核心思想是”利用函数在当前点的一阶导数,以及二阶导数,寻找搜寻方向“(回想一下更简单的梯度下降法,她只用了当前点一阶导数信息决定搜索方向). 牛顿法的迭代公式是(稍微有修改,最原始的牛顿法\(\gamma=1\): \[{{\bf{x}}_{n + 1}} = {{\bf{x}}

深入理解CSS中的层叠上下文和层叠顺序(转)

by zhangxinxu from http://www.zhangxinxu.com 本文地址:http://www.zhangxinxu.com/wordpress/?p=5115 零.世间的道理都是想通的 在这个世界上,凡事都有个先后顺序,凡物都有个论资排辈.比方说食堂排队打饭,对吧,讲求先到先得,总不可能一拥而上.再比如说话语权,老婆的话永远是对的,领导的话永远是对的. 在CSS届,也是如此.只是,一般情况下,大家歌舞升平,看不出什么差异,即所谓的众生平等.但是,当发生冲突发生纠葛的时

使命感并不仅仅是企业的事情

有人问三个正在教堂工地施工的建筑工人同样的问题:你在干什么?第一个工人说: 我在砌砖头. 第二个工人说: 我在建世界上最大的教堂. 第三个工人说: 我在建设一个净化人们心灵的场所. 为什么做着同样的工作,三个人的回答却有着天壤之别呢?其实这种巨大的差异完全来源于他们对自己所做的工作的使命感的认识.有没有使命感,是决定他是痛苦的工作还是快乐的工作的关键因素.我们把员工分为好人与能人两大类,如何去选择员工? 第一种人,认同公司的核心价值观,又很有成绩,这种人一路飚升: 第二种人,认同公司的核心价值观