凸优化之优化、对偶、KKT-七月算法（julyedu.com）4 月机器学习算法班学习笔记

优化
- 一般优化问题的基本形式
- 凸优化的基本形式
共轭函数
- 共轭函数是凸函数
对偶问题
- 拉格朗日函数
- 拉格朗日对偶函数
KKT条件
小结

优化

一般优化问题的基本形式

minimizef0(x),x∈Rn

s.t.fi(x)≤0,i=1?m

s.t.hj(x)=0,j=1?n

定义域为

当

m=n=0

时，约束优化问题退化成无约束优化问题

注意：这是是优化问题的一般形式，对

fi(x)

和

hi(x)

无特殊要求。就是并不要求这些函数一定可导，也不要求只有一个极值点，就是啥要求都没。

凸优化的基本形式

minimizef0(x),x∈Rn

s.t.fi(x)≤0,i=1?m

s.t.hj(x)=0,j=1?n

当

fi(x)

为凸函数，

hi(x)

为仿射函数时，该优化问题就是凸优化问题。

凸优化在有一般优化为题的基础增加了对

fi(x)

和

hi(x)

的要求。

但是凸优化具有一个很好的性质

- 凸优化问题的局部最优解同时也是全局最优解

共轭函数

定义

共轭函数是凸函数

当我们把

x

和

f(x)

都看成定值，而

y

看成变量，则

yTx?f(x)

可以看做关于的

y

的仿射变换（用人话说就是一条直线or平面，更高维就是一个超平面）。

超平面本身就是一个凸函数。另外

yTx?f(x)|x∈domf

是一个关于

y

的超平面的集合。

而共轭函数的几何意义就求直线集合上确界，也就是逐点求最大，这个实际上是一个保凸运算。因此共轭函数还是一个凸函数

对偶问题

拉格朗日函数

一般优化问题

minimizef0(x),x∈Rn

s.t.fi(x)≤0,i=1?m

s.t.hj(x)=0,j=1?n

该问题的拉格朗日函数为

L(x,λ,v)=f0(x)+∑λifi(x)+∑vihi(x)

当将

x

固定，那么拉格朗日函数就是关于

λ

和

v

的仿射函数

拉格朗日对偶函数

可以看出拉格朗日对偶函数是对关于

λ

和

v

的仿射函数进行逐点球最小。

注意：即便原问题不是凸的，拉格朗日对偶函数也一定是凹的

可以发现拉格朗日对偶函数和共轭函数是具有十分相似特性。两者都是固定原问题的变量，而且都是逐点求最值。不同的是共轭函数是求上确界，而拉格朗日函数是求下确界

KKT条件

无约束/约束优化问题的必要条件对比

一般无约束问题	有约束优化问题
一般无约束问题（非凸），导数(梯度)等于0只是一阶必要条件，也就是说极值点一定满足梯度等于0，但是反过来满足梯度等于0的点不一定是局部极值点	一般有约束的问题（非凸），一阶KKT条件变成一阶必要条件，也就是说极值点一定满足KKT

也就是说，KKT条件就是对于只有等式约束下的拉格朗日乘子法的泛化，无约束优化问题的KKT调节是没有条件4和5的约束。条件4和5是针对不等式约束的

小结

一般优化问题，可以通过拉个朗日对偶或共轭函数的手段，将一般优化问题转化为一个对偶的凸优化问题。求一个凸优化问题的全局最优解是比直接求原问题的最优解要简单得到。我们可以通过KKT条件来找出对偶问题的局部最优解，也就是全局最优解了。

时间： 2024-10-27 10:08:54

凸优化之优化、对偶、KKT-七月算法（julyedu.com）4 月机器学习算法班学习笔记的相关文章

七月算法--12月机器学习在线班-第四次课笔记—凸优化

七月算法--12月机器学习在线班-第四次课笔记—凸优化七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第十二次课笔记—支持向量机（SVM）

七月算法-12月机器学习在线班--第十二次课笔记-支持向量机(SVM) 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com ? 复习的内容: 对偶问题 KKT条件 ? SVM 1.1三类数据类型线性可分支持向量机线性支持向量机非线性支持向量机 ? 1.2 线性分类 1.2.1 样本到分类面的距离的意义点到直线的距离,ABC是归一化的."+"正类别,"-"负类别因此距离可以直接用AX+BY+c=f(x,

七月算法-12月机器学习在线班--第十四次课笔记—EM算法

七月算法-12月机器学习在线班--第十四次课笔记-EM算法七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com ? EM Expection Maxium 期望最大化 1 引例 1000人,统计身高,1.75,1.62,1.94,有多少男女,每个身高对应的男女 ? 1.1 如何算?利用极大似然估计,估算均值和方差上述结论和矩估计的结果是一致的, 即:样本的均值即高斯分布的均值,样本的伪方差即高斯分布的方差. 如果是高斯分布,就可以这么用本

七月算法--12月机器学习在线班-第三次课笔记—矩阵和线性代数

七月算法--12月机器学习在线班-第三次课笔记—矩阵和线性代数七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第五次课笔记—回归

七月算法--12月机器学习在线班-第五次课笔记—回归七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第一次课笔记—微积分与概率论

七月算法--12月机器学习在线班-第一次课笔记—微积分与概率论七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第六次课笔记—梯度下降和拟牛顿

七月算法--12月机器学习在线班-第六次课笔记—梯度下降和拟牛顿七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法--12月机器学习在线班-第七次课笔记—最大熵

七月算法--12月机器学习在线班-第七次课笔记—最大熵七月算法(julyedu.com)12月机器学习在线班学习笔记 http://www.julyedu.com

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 1,对数线性模型一个事件的几率odds,是指该事件发生的概率与该事件不发生的概率的比值. 1.1对数线性模型的一般形式令x为某样本,y是x的可能标记,将Logistic/ Softmax回归的特征记做特征函数的选择:eg: 自然语言处理 1, 特征函数几乎可任意选择,甚至特征函数间重叠: 2, 每个特征之和当前的词

七月算法-12月机器学习在线班--第十七次课笔记-隐马尔科夫模型HMM

七月算法-12月机器学习--第十七次课笔记-隐马尔科夫模型HMM 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 隐马尔科夫模型三个部分:概率计算,参数估计,模型预测 1,HMM定义 HMM由初始概率分布π.状态转移概率分布A以及观测概率分布B确定. Eg:以中文分词为例子隐状态为="2",是不是终止字,是/否?(Y/N)即是不是最后一个字. A矩阵:第一个:当前是终止字,下一个也是终止字的概率 B是当前的隐状态是终止词,