一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

  
       Log-Linear 模型（也叫做最大熵模型）是 NLP 领域中使用最为广泛的模型之一，其训练常采用最大似然准则，且为防止过拟合，往往在目标函数中加入（可以产生稀疏性的） L1 正则。但对于这种带 L1 正则的最大熵模型，直接采用标准的随机梯度下降法（SGD）会出现效率不高和难以真正产生稀疏性等问题。

       本文为阅读作者 Yoshimasa Tsuruoka, Jun’chi Tsujii 和 Sophia Ananiadou 的论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty （2009）后整理的读书笔记，文中提出了一种基于累积惩罚的 SGD 方法，可以克服上述提到的两个问题。

作者: peghoty

出处: http://blog.csdn.net/itplus/article/details/30049501

欢迎转载/分享, 但请务必声明文章出处.

一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法,布布扣,bubuko.com

时间： 2024-10-06 09:26:10

一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法的相关文章

一个用 Cumulative Penalty 培训 L1 正规 Log-linear 型号随机梯度下降

Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之中的一个.其训练常採用最大似然准则.且为防止过拟合,往往在目标函数中增加(能够产生稀疏性的) L1 正则.但对于这样的带 L1 正则的最大熵模型,直接採用标准的随机梯度下降法(SGD)会出现效率不高和难以真正产生稀疏性等问题. 本文为阅读作者 Yoshimasa Tsuruoka, Jun'chi Tsujii 和 Sophia Ananiadou 的论文 Stochastic Gradient Descen

一种并行随机梯度下降法

本文是读完 Jeffrey Dean, Greg S. Corrado 等人的文章 Large Scale Distributed Deep Networks (2012) 后的一则读书笔记,重点介绍在 Google 的软件框架 DistBelief 下设计的一种用来训练大规模深度神经网络的随机梯度下降法 - Downpour SGD,该方法通过分布式地部署多个模型副本和一个"参数服务器",同时实现了模型并行和数据并行,且对机器失效问题具有很好的容错性.结合 Adagrad 自适应

常见的几种最优化方法（梯度下降法、牛顿法、拟牛顿法、共轭梯度法等）

我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题"在一定成本下,如何使利润最大化"等.最优化方法是一种数学方法,它是研究在给定约束之下如何寻求某些因素(的量),以使某一(或某些)指标达到最优的一些学科的总称.随着学习的深入,博主越来越发现最优化方法的重要性,学习和工作中遇到的大多问题都可以建模成一种最优化模型进行求解,比如我们现在学习的机器学习算法,大部分的机器学习算法的本质都是建立优化模型,通过最优化方法对目标函数(或损失函数)进行优

[Machine Learning] 梯度下降法的三种形式BGD、SGD以及MBGD

在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点. 下面我们以线性回归算法来对三种梯度下降法进行比较. 一般线性回归函数的假设函数为: $h_{\theta}=\sum_{j=0}^{n}\theta_{j}x_{j}$ 对应的能量函数(损失函数)形式为: $J_{train}(\theta)=1/(2m)\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2}$

解梯度下降法的三种形式BGD、SGD以及MBGD

原帖地址:https://zhuanlan.zhihu.com/p/25765735 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点. 下面我们以线性回归算法来对三种梯度下降法进行比较. 一般线性回归函数的假设函数为: $$h_\theta=\sum_{j=0}^n\theta_jx_j$$ 对应的损失函数为: $$J_{train}(\theta)=\frac1{2m}\s

机器学习中常见问题_几种梯度下降法

一.梯度下降法在机器学习算法中,对于很多监督学习模型,需要对原始的模型构建损失函数,接下来便是通过优化算法对损失函数进行优化,以便寻找到最优的参数.在求解机器学习参数的优化算法中,使用较多的是基于梯度下降的优化算法(Gradient Descent, GD). 梯度下降法有很多优点,其中,在梯度下降法的求解过程中,只需求解损失函数的一阶导数,计算的代价比较小,这使得梯度下降法能在很多大规模数据集上得到应用.梯度下降法的含义是通过当前点的梯度方向寻找到新的迭代点. 基本思想可以这样理解:我们从山

梯度下降法的三种形式BGD、SGD以及MBGD

阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. 总结在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点. 下面我们以线性回归算法来对三种梯度下降法进行比较. 一般线性回归函数的假设函数为: 对应的能量函数(损失函数)形式为: 下图为一个二维参数(θ0和θ1)组对应能量函数的可视化图: 1 批量梯度下降法BGD 批量梯度下降法(Batch Grad

20-深谋远虑与想到做到——两种梯度下降法

生活中往往有两种人:一种喜欢谋定而后动,比较有全局观:另一种见机行事,根据外界环境不断调整自己的行为.命运给他们的馈赠也是不同的,前者可能大器晚成,后者容易惊喜不断,然而可能左右摇摆.不能说两种处事态度有什么优劣:思虑过多可能错失良机,贸然行动也可能事倍功半,总之"成功"这件事一半靠命运.顾城的诗中说:命运不是风,来回吹,命运是大地,走到哪你都在命运中.而我们能做的是发挥主观能动性,从而改变条件概率(指事件A在另外一个事件B已经发生条件下的发生概率.表示为:P(A|B),读作"

【机器学习】--线性回归中L1正则和L2正则

一.前述 L1正则,L2正则的出现原因是为了推广模型的泛化能力.相当于一个惩罚系数. 二.原理 L1正则:Lasso Regression L2正则:Ridge Regression 总结: 经验值 MSE前系数为1 ,L1 , L2正则前面系数一般为0.4~0.5 更看重的是准确性. L2正则会整体的把w变小. L1正则会倾向于使得w要么取1,要么取0 ,稀疏矩阵 ,可以达到降维的角度. ElasticNet函数(把L1正则和L2正则联合一起): 总结: 1.默认情况下选用L2正则. 2.如若