机器学习中常见优化方法汇总

http://www.scipy-lectures.org/advanced/mathematical_optimization/index.html#a-review-of-the-different-optimizers

机器学习中数学优化专门用于解决寻找一个函数的最小值的问题。这里的函数被称为cost function或者objective function，或者energy:损失函数或者目标函数。

更进一步，在机器学习优化中，我们并不依赖于被优化的函数的数学解析表达式，我们通过使用$scipy.optimize$从而实现类似黑盒优化。

了解你的优化问题本身

并不是所有的优化问题都是一样的，如果你能对你待优化的问题本身有一个深刻的理解，这样可以选择正确的优化方法。

1.其中非常重要的一点就是要考察问题本身的维数。问题本身数据的维数（标量变量的个数）决定了优化问题的规模。

2.convex和non-convex优化

凸函数的特征:

$f$总是在其切线之上
或者说，对于两个点$A,B$，如果$A<C<B$,则$f(C)$总是在线段$f(A),f(B)$之间

凸函数优化相对非常简单。

3.函数光滑与否(是否处处可导)

4. loss函数以及gradient函数是否存在噪声

如果gradient没有解析式，那么我们都须通过计算式计算，这必然导致误差。

5. 是否有限制条件

比如，下图中就要求优化只能在$x_1,x_2 \in (-1,1)$间优化

常见的优化方法

Brent’s method

理论依据是中值定理，对于一个连续函数,$f$,如果两个端点a,b的函数值$f(a)f(b)<0$，则$(a,b)$之间必然存在一个驻点(导数为0)，我们可以不断迭代最终求得驻点；

from scipy import optimize
def f(x):
    return -np.exp(-(x - 0.7)**2)
result = optimize.minimize_scalar(f)
result.success # check if solver was successful

x_min = result.x

gradient based methods

简单梯度下降法

原理如教科书的描述，根据梯度下降的方向去做数值变更和迭代，最终求得驻点。

存在的问题是：参数调整时可能反复跨过驻点从而形成震荡，虽然减少参数调整的布幅可以减轻这个问题，但是无法彻底解决。

共轭梯度下降

共轭算法在简单梯度下降基础上增加一个摩擦项(friction term),每个step依赖于梯度最近的两个值，这样可以有效解决反复震荡问题。

def f(x):   # The rosenbrock function
    return .5*(1 - x[0])**2 + (x[1] - x[0]**2)**2
optimize.minimize(f, [2, -1], method="CG")

梯度优化方法需要loss函数的雅可比（梯度）值，虽然即使你不传入导数(雅可比矩阵是针对y值为向量的情况下的梯度向量)，算法也能够通过数值计算方法算出来，但是如果有解析表达式，我们传入这个值会大大提升收敛效率.

def jacobian(x):
    return np.array((-2*.5*(1 - x[0]) - 4*x[0]*(x[1] - x[0]**2), 2*(x[1] - x[0]**2)))
optimize.minimize(f, [2, 1], method="CG", jac=jacobian)

注意：通过传入解析表达式后，只需要28次就能收敛，而之前需要108次迭代才能收敛。

牛顿梯度法（Newton and quasi-newton methods）

def f(x):   # The rosenbrock function
    return .5*(1 - x[0])**2 + (x[1] - x[0]**2)**2
def jacobian(x):
    return np.array((-2*.5*(1 - x[0]) - 4*x[0]*(x[1] - x[0]**2), 2*(x[1] - x[0]**2)))
optimize.minimize(f, [2,-1], method="Newton-CG", jac=jacobian)

BFGS

BFGS在牛顿法基础上细调了Hessian矩阵的估算方法

L-BFGS

L-BFGS位于BFGS和共轭梯度法之间。对于非常高维（大于250个）的loss函数，Hessian矩阵的计算是非常耗时的，L-BFGS keeps a low-rank version.

非梯度优化方法

Powell算法

Nelder-Mead

带约束条件的函数优化

盒子边界

def f(x):
   return np.sqrt((x[0] - 3)**2 + (x[1] - 2)**2)
optimize.minimize(f, np.array([0, 0]), bounds=((-1.5, 1.5), (-1.5, 1.5)))

通用约束:拉格朗日乘数法化约束为对偶无约束的优化问题

def f(x):
    return np.sqrt((x[0] - 3)**2 + (x[1] - 2)**2)

def constraint(x):
    return np.atleast_1d(1.5 - np.sum(np.abs(x)))

x0 = np.array([0, 0])
optimize.minimize(f, x0, constraints={"fun": constraint, "type": "ineq"})

原文地址：https://www.cnblogs.com/kidsitcn/p/9535306.html

时间： 2024-10-07 20:47:09

机器学习中常见优化方法汇总的相关文章

机器学习中常见的过拟合解决方法

在机器学习中,我们将模型在训练集上的误差称之为训练误差,又称之为经验误差,在新的数据集(比如测试集)上的误差称之为泛化误差,泛化误差也可以说是在模型在总体样本上的误差.对于一个好的模型应该是经验误差约等于泛化误差,也就是经验误差要收敛于泛化误差,根据霍夫丁不等式可知经验误差在一定条件下是可以收敛于泛化误差的. 当机器学习模型对训练集学习的太好的时候(再学习数据集的通性的时候,也学习了数据集上的特性,这些特性是会影响模型在新的数据集上的表达能力的,也就是泛化能力),此时表现为经验误差很小,当往往此

深度学习之（十一）Deep learning中的优化方法：随机梯度下降、受限的BFGS、共轭梯度法

Deep learning中的优化方法三种常见优化算法:SGD(随机梯度下降),LBFGS(受限的BFGS),CG(共轭梯度法). 1.SGD(随机梯度下降) 随机梯度下降(Stochastic Gradient Descent, SGD)是随机和优化相结合的产物,是一种很神奇的优化方法,属于梯度下降的一种,适用于大规模问题. 要想扯清楚它,还得先谈谈梯度下降.众所周知,每个优化问题都会有一个目标函数F(w)F(w),梯度下降采用迭代的策略,从初始点w0w0开始,每次沿着目标函数在当前点的负梯

槽填充中模式优化方法的研究

槽填充中模式优化方法的研究(硕士毕业论文) 沈晓卫针对槽填充任务的实现方法主要可以分为三种: 第一种是把槽填充任务转换为关系抽取任务,用传统的信息抽取方法来实现槽填充任务,按照具体实现方法的不同,信息抽取方法又可以分为模式匹配的方法和基于分类器的方法第二种是以问答系统(Question Answering,QA)为基础,通过把槽填充任务中定义的每一个槽解析为一个等价问题集合的方式来完成槽填充任务. 最后一种是基于规则的方法,即直接依靠人工的方法为每一个槽构建对应的模式库或规则库,然后以这

机器学习中的矩阵方法04：SVD 分解

机器学习中的矩阵方法04:SVD 分解前面我们讲了 QR 分解有一些优良的特性,但是 QR 分解仅仅是对矩阵的行进行操作(左乘一个酉矩阵),可以得到列空间.这一小节的 SVD 分解则是将行与列同等看待,既左乘酉矩阵,又右乘酉矩阵,可以得出更有意思的信息.奇异值分解( SVD, Singular Value Decomposition ) 在计算矩阵的伪逆( pseudoinverse ),最小二乘法最优解,矩阵近似,确定矩阵的列向量空间,秩以及线性系统的解集空间都有应用. 1. SVD 的形式

机器学习中的矩阵方法02：正交

机器学习中的矩阵方法02:正交说明:Matrix Methods in Data Mining and Pattern Recognition 读书笔记 1. 正交的一些概念和性质在前一章的最小二乘的问题中,我们知道不恰当的基向量会出现条件数过大,系统防干扰能力差的现象,这实际上和基向量的正交性有关. 两个向量的内积如果是零, 那么就说这两个向量是正交的,在三维空间中,正交的两个向量相互垂直.如果相互正交的向量长度均为 1, 那么他们又叫做标准正交基. 正交矩阵则是指列向量相互正交的方阵.标

机器学习中的矩阵方法01：线性系统和最小二乘

机器学习中的矩阵方法01:线性系统和最小二乘说明:Matrix Methods in Data Mining and Pattern Recognition 读书笔记非常 nice 矩阵在线计算器,网址:http://www.bluebit.gr/matrix-calculator/. 1. LU Decomposition 假设现在要解一个线性系统: Ax = b, 其中 A 是 n×n 非奇异方阵,对于任意的向量 b 来说,都存在一个唯一的解. 回顾我们手工求解这个线性方程组的做法,首先

机器学习中常见的最优化算法

我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题"在一定成本下,如何使利润最大化"等.最优化方法是一种数学方法,它是研究在给定约束之下如何寻求某些因素(的量),以使某一(或某些)指标达到最优的一些学科的总称.随着学习的深入,博主越来越发现最优化方法的重要性,学习和工作中遇到的大多问题都可以建模成一种最优化模型进行求解,比如我们现在学习的机器学习算法,大部分的机器学习算法的本质都是建立优化模型,通过最优化方法对目标函数(或损失函数)进行优

机器学习（十三）——机器学习中的矩阵方法（3）病态矩阵、协同过滤的ALS算法（1）

http://antkillerfarm.github.io/ 向量的范数(续) 范数可用符号∥x∥λ表示.常用的有: ∥x∥1=|x1|+?+|xn| ∥x∥2=x21+?+x2n???????????√ ∥x∥∞=max(|x1|,-,|xn|) 这里不做解释的给出如下示意图: 其中,0范数表示向量中非0元素的个数.上图中的图形被称为lp ball.表征在同一范数条件下,具有相同距离的点的集合. 范数满足如下不等式: ∥A+B∥≤∥A∥+∥B∥(三角不等式) 向量范数推广可得到矩阵范数.某些

机器学习中常见的损失函数

损失函数是机器学习中常用于优化模型的目标函数,无论是在分类问题,还是回归问题,都是通过损失函数最小化来求得我们的学习模型的.损失函数分为经验风险损失函数和结构风险损失函数.经验风险损失函数是指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项.通常表示为: θ*是我们通过损失函数最小化要求得的参数,一般都是通过梯度下降法来求得 1.0-1损失函数 0-1损失函数的表达式如下,常见于感知机模型中,预测正确则损失为0,预测错误则损失为1: 2.绝对值损失函数 3.log对数损失