大规模机器学习优化方法综述

本文对这篇论文的简单描述

Optimization Methods for Large-Scale Machine Learning
author:Leon Bottou Frank E. Curtisy Jorge Nocedalz

  4. Analyses of Stochastic Gradient Methods

不失一般性,将期望风险R(w)和经验风险Rn(w)的目标函数表示如下


本节主要讨论SG算法的收敛性及最糟的迭代上界

以上算法就称之为SG, g主要为三种形式

4.1 两个基本引理

通常SG的收敛性证明,需要目标函数F的光滑性、

根据这个猜想得出一个重要的不等式

由算法4.1知道 w(k+1)与 \xi_k 相关  ,{\xi_1,\xi_2,...,}是随机变量,可以看成一个分布

对不等式取期望就得到(4.4)  (note:w(k+1)与\xi_k相关)

时间: 2024-10-11 11:28:48

大规模机器学习优化方法综述的相关文章

机器学习最常用优化之一——梯度下降优化算法综述

转自:http://www.dataguru.cn/article-10174-1.html 梯度下降算法是机器学习中使用非常广泛的优化算法,也是众多机器学习算法中最常用的优化方法.几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现.但是,它们就像一个黑盒优化器,很难得到它们优缺点的实际解释.这篇文章旨在提供梯度下降算法中的不同变种的介绍,帮助使用者根据具体需要进行使用. 这篇文章首先介绍梯度下降算法的三种框架,然后介绍它们所存在的

机器学习中常见优化方法汇总

http://www.scipy-lectures.org/advanced/mathematical_optimization/index.html#a-review-of-the-different-optimizers 机器学习中数学优化专门用于解决寻找一个函数的最小值的问题.这里的函数被称为cost function或者objective function,或者energy:损失函数或者目标函数. 更进一步,在机器学习优化中,我们并不依赖于被优化的函数的数学解析表达式,我们通过使用$sc

梯度下降优化算法综述

本文翻译自Sebastian Ruder的"An overview of gradient descent optimization algoritms",作者首先在其博客中发表了这篇文章,其博客地址为:An overview of gradient descent optimization algoritms,之后,作者将其整理完放在了arxiv中,其地址为:An overview of gradient descent optimization algoritms,在翻译的过程中以

百度技术沙龙 - 广告数据上的大规模机器学习

上个月,参加了百度技术沙龙, 夏粉的<广告数据上的大规模机器学习>讲座介绍了大规模机器学习中的若干重要问题.遗憾的是,百度的相关算法没有公开的论文. 1.  数据处理 目标: 获取信息, 去除噪音 机器学习技术点: 选择对点击概率分布 预估足够多样本 解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测 算法:a. 百度 SA算法; b. Google (KDD 2013) 2. 特征处理 问题:大量的类型型特征和ont-hot特征导致海量特征 目标: 选择尽可能少

NN优化方法对比:梯度下降、随机梯度下降和批量梯度下降

1.前言 这几种方法呢都是在求最优解中经常出现的方法,主要是应用迭代的思想来逼近.在梯度下降算法中,都是围绕以下这个式子展开: 其中在上面的式子中hθ(x)代表,输入为x的时候的其当时θ参数下的输出值,与y相减则是一个相对误差,之后再平方乘以1/2,并且其中 注意到x可以一维变量,也可以是多维变量,实际上最常用的还是多维变量.我们知道曲面上方向导数的最大值的方向就代表了梯度的方向,因此我们在做梯度下降的时候,应该是沿着梯度的反方向进行权重的更新,可以有效的找到全局的最优解.这个θ的更新过程可以描

深度学习之(十一)Deep learning中的优化方法:随机梯度下降、受限的BFGS、共轭梯度法

Deep learning中的优化方法 三种常见优化算法:SGD(随机梯度下降),LBFGS(受限的BFGS),CG(共轭梯度法). 1.SGD(随机梯度下降) 随机梯度下降(Stochastic Gradient Descent, SGD)是随机和优化相结合的产物,是一种很神奇的优化方法,属于梯度下降的一种,适用于大规模问题. 要想扯清楚它,还得先谈谈梯度下降.众所周知,每个优化问题都会有一个目标函数F(w)F(w),梯度下降采用迭代的策略,从初始点w0w0开始,每次沿着目标函数在当前点的负梯

大规模机器学习

第十三讲. 大规模机器学习--Large Scale Machine Learning   ============================= (一).为什么要大规模机器学习? (二).Stochastic和Batch梯度下降 (三).Mini-Batch梯度下降 (四).在线学习(Online Learning) (五).MapReduce和并行计算原理 ===================================== (一).为什么要大规模机器学习? 一.为什么需要大数据?

机器学习-牛顿方法&amp;指数分布族&amp;GLM

本节内容 牛顿方法 指数分布族 广义线性模型 之前学习了梯度下降方法,关于梯度下降(gradient descent),这里简单的回顾下[参考感知机学习部分提到的梯度下降(gradient descent)].在最小化损失函数时,采用的就是梯度下降的方法逐步逼近最优解,规则为其实梯度下降属于一种优化方法,但梯度下降找到的是局部最优解.如下图: 本节首先讲解的是牛顿方法(NewTon's Method).牛顿方法也是一种优化方法,它考虑的是全局最优.接着还会讲到指数分布族和广义线性模型.下面来详细

Caffe学习系列(8):solver优化方法

上文提到,到目前为止,caffe总共提供了六种优化方法: Stochastic Gradient Descent (type: "SGD"), AdaDelta (type: "AdaDelta"), Adaptive Gradient (type: "AdaGrad"), Adam (type: "Adam"), Nesterov’s Accelerated Gradient (type: "Nesterov&qu