正则化--Lambda

模型开发者通过以下方式来调整正则化项的整体影响:用正则化项的值乘以名为 lambda(又称为正则化率)的标量。也就是说,模型开发者会执行以下运算:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

执行 L2 正则化对模型具有以下影响:

  • 使权重值接近于 0(但并非正好为 0)
  • 使权重的平均值接近于 0,且呈正态(钟形曲线或高斯曲线)分布。

增加 lambda 值将增强正则化效果。 例如,lambda 值较高的权重直方图可能会如图 2 所示。

降低 lambda 的值往往会得出比较平缓的直方图,如图 3 所示。

在选择 lambda 值时,目标是在简单化和训练数据拟合之间达到适当的平衡:

  • 如果您的 lambda 值过高,则模型会非常简单,但是您将面临数据欠拟合的风险。您的模型将无法从训练数据中获得足够的信息来做出有用的预测。
  • 如果您的 lambda 值过低,则模型会比较复杂,并且您将面临数据过拟合的风险。您的模型将因获得过多训练数据特点方面的信息而无法泛化到新数据。
  • 将 lambda 设为 0 可彻底取消正则化。 在这种情况下,训练的唯一目的将是最小化损失,而这样做会使过拟合的风险达到最高。

理想的 lambda 值生成的模型可以很好地泛化到以前未见过的新数据。 遗憾的是,理想的 lambda 值取决于数据,因此您需要手动或自动进行一些调整。


了解 L2 正则化和学习速率

学习速率和 lambda 之间存在密切关联。强 L2 正则化值往往会使特征权重更接近于 0。较低的学习速率(使用早停法)通常会产生相同的效果,因为与 0 的距离并不是很远。 因此,同时调整学习速率和 lambda 可能会产生令人混淆的效果。

早停法指的是在模块完全收敛之前就结束训练。在实际操作中,我们经常在以在线(连续)方式进行训练时采取一些隐式早停法。也就是说,一些新趋势的数据尚不足以收敛。

如上所述,更改正则化参数产生的效果可能会与更改学习速率或迭代次数产生的效果相混淆。一种有用的做法(在训练一批固定的数据时)是执行足够多次迭代,这样早停法便不会起作用。


引用

简化正则化 (Regularization for Simplicity):Lambda

原文地址:https://www.cnblogs.com/taro/p/8643225.html

时间: 2024-11-27 04:21:43

正则化--Lambda的相关文章

数据预处理中归一化(Normalization)与损失函数中正则化(Regularization)解惑

背景:数据挖掘/机器学习中的术语较多,而且我的知识有限.之前一直疑惑正则这个概念.所以写了篇博文梳理下 摘要: 1.正则化(Regularization) 1.1 正则化的目的 1.2 正则化的L1范数(lasso),L2范数(ridge),ElasticNet 2.归一化 (Normalization)   2.1归一化的目的 2.1归一化计算方法 2.2.spark ml中的归一化 2.3 python中skelearn中的归一化 知识总结: 1.正则化(Regularization) 1.

stanford coursera 机器学习编程作业 exercise 5(正则化线性回归及偏差和方差)

本文根据水库中蓄水标线(water level) 使用正则化的线性回归模型预 水流量(water flowing out of dam),然后 debug 学习算法 以及 讨论偏差和方差对 该线性回归模型的影响. ①可视化数据集 本作业的数据集分成三部分: ?训练集(training set),样本矩阵(训练集):X,结果标签(label of result)向量 y ?交叉验证集(cross validation set),确定正则化参数 Xval 和 yval ?测试集(test set)

正则化的概念

摘要: 今天在看李航的<统计学习方法>的决策树剪枝过程中,又一次发现了正则化这个概念.故百度并记录如下. 知识总结: 我的理解就是平衡训练误差与模型复杂度的一种方式,通过加入正则项来避免过拟合. 正则化的目的:避免出现过拟合(over-fitting) 经验风险最小化 + 正则化项 = 结构风险最小化 经验风险最小化(ERM),是为了让拟合的误差足够小,即:对训练数据的预测误差很小. 但是,我们学习得到的模型,当然是希望对未知数据有很好的预测能力(泛化能力),这样才更有意义. 当拟合的误差足够

机器学习中使用「正则化来防止过拟合」到底是一个什么原理?为什么正则化项就可以防止过拟合?

原文:http://www.zhihu.com/question/20700829 27 个回答 46赞同反对,不会显示你的姓名 ALAN Huang,什么都会一点点 欣然.王志.马克 等人赞同 Orangeprince 的回答非常学院派,也非常系统. 过拟合表现在训练数据上的误差非常小,而在测试数据上误差反而增大.其原因一般是模型过于复杂,过分得去拟合数据的噪声和outliers. 正则化则是对模型参数添加先验,使得模型复杂度较小,对于噪声以及outliers的输入扰动相对较小. 以正则化项和

转:归一化与正则化

正则化.归一化含义解析 2012-12-29 正则化(Regularization).归一化(也有称为正规化/标准化,Normalization)是对数据尽心预处理的方式,他们的目的都是为了让数据更便于我们的计算或获得更加泛化的结果,但并不改变问题的本质,下面对他们的作用分别做一下科普,如有不正确之处,求指正! 前言 需要注意的是,这些名词在不同的领域含义也有点区别,这里仅仅指的是在进行机器学习研究的时候所使用的意义. 一.正则化(Regularization) 李航博士在<统计学习方法>中提

正则化、归一化含义解析

正则化(Regularization).归一化(也有称为正规化/标准化,Normalization)是对数据尽心预处理的方式,他们的目的都是为了让数据更便于我们的计算或获得更加泛化的结果,但并不改变问题的本质,下面对他们的作用分别做一下科普,如有不正确之处,求指正! 前言 需要注意的是,这些名词在不同的领域含义也有点区别,这里仅仅指的是在进行机器学习研究的时候所使用的意义. 一.正则化(Regularization) 李航博士在<统计学习方法>中提到,统计学习的三要素是模型.策略和算法,在机器

斯坦福大学公开课机器学习: advice for applying machine learning | regularization and bais/variance(机器学习中方差和偏差如何相互影响、以及和算法的正则化之间的相互关系)

算法正则化可以有效地防止过拟合, 但正则化跟算法的偏差和方差又有什么关系呢?下面主要讨论一下方差和偏差两者之间是如何相互影响的.以及和算法的正则化之间的相互关系 假如我们要对高阶的多项式进行拟合,为了防止过拟合现象,我们要使用图下所示的正则化.因此我们试图通过下面的正则化项,来让参数的值尽可能小.正则化项的求和范围,照例取为j等于1到m,而非j等于0到m. 然后我们来分析以下三种情形.第一种情形:正则化参数lambda取一个比较大的值(比如lambda的值取为10000甚至更大).在这种情况下,

【深度学习】L1正则化和L2正则化

在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况.正则化是机器学习中通过显式的控制模型复杂度来避免模型过拟合.确保泛化能力的一种有效方式.如果将模型原始的假设空间比作"天空",那么天空飞翔的"鸟"就是模型可能收敛到的一个个最优解.在施加了模型正则化后,就好比将原假设空间("天空")缩小到一定的空间范围("笼子")

正则化(神经网络过拟合时的应对方法)

正则化就是在J(w,b)中加上wi^2 J(w,b)表示的是整个模型在样本上的效果,J(w,b)越小,效果越好 深度学习也就是训练参数,是J变小. 现在拿L2型正则化来举个例子 我们知道,过拟合的原因是深度网络深度太深,节点太多,激活函数太复杂(非线性) 现在我的J在原来的基础上+ (w1 * w1 + w2 * w2 + ....... + wn * wn)*lanbda/2*m lanbda是正则化的参数 那么对于没有正则化之前的神经网络来说我的w肯定是变小了 这样就减小了神经网络对图片的影