本文对这篇论文的简单描述
Optimization Methods for Large-Scale Machine Learning author:Leon Bottou Frank E. Curtisy Jorge Nocedalz
4. Analyses of Stochastic Gradient Methods
不失一般性,将期望风险R(w)和经验风险Rn(w)的目标函数表示如下
本节主要讨论SG算法的收敛性及最糟的迭代上界
以上算法就称之为SG, g主要为三种形式
4.1 两个基本引理
通常SG的收敛性证明,需要目标函数F的光滑性、
根据这个猜想得出一个重要的不等式
由算法4.1知道 w(k+1)与 \xi_k 相关 ,{\xi_1,\xi_2,...,}是随机变量,可以看成一个分布
对不等式取期望就得到(4.4) (note:w(k+1)与\xi_k相关)
时间: 2024-10-11 11:28:48