正则化项L1和L2

L1和L2正则化项，又叫做惩罚项，是为了限制模型的参数，防止模型过你和而加在损失函数后面的一项。

L1是模型的各个参数的绝对值之和
L2是模型各个参数的平方和的开方值

区别：

L1会趋向于产生少量的特征，而其他的特征都是0。
- 从图形上理解：应为最优的参数值很大概率出现在坐标轴上，这样就导致某一维的权重为0，产生稀疏权重矩阵。
- 从贝叶斯的角度理解：加上正则化项L1，等同于对θ假设一个先验分布为拉普拉斯分布
L2会选择更对的特征，这些特征都会接近于0。最优参数值很小概率出现在坐标轴上，因为每一维的参数都不会是0。当最小化||W||时，就会使每一项趋近于0，而不是稀疏。

- 从图上上理解：L2约束条件在解空间中没有角，因而更倾向于约束其值的大小，而不是使其为0
- 从贝叶斯的角度理解：L2相当于给θ一个先验分布为高斯分布。

作用：L1正则化可以产生稀疏模型，L2正则化项可以防止过拟合（因为拟合的过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合数据（抗扰动能力））。

参考：

李航《统计学习方法》

http://www.cnblogs.com/lyr2015/p/8718104.html

https://blog.csdn.net/YoYoDelphine/article/details/52888315

https://blog.csdn.net/jinping_shi/article/details/52433975

原文地址：https://www.cnblogs.com/R-dog/p/9737465.html

时间： 2024-10-06 16:19:04

正则化项L1和L2的相关文章

机器学习中正则化项L1和L2的直观理解

正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作?1-norm和?2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数. L1正则化和L2正则化可以看做是损失函数的惩罚项.对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归).下图是Python中Lasso回归的损失函数,式中加号后面一项α||w||1即为L1正则化项. 下图是Python中Ri

正则化项L1和L2的区别

https://blog.csdn.net/jinping_shi/article/details/52433975 https://blog.csdn.net/zouxy09/article/details/24971995 一.概括: L1和L2是正则化项,又叫做罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项. 二.区别: 1.L1是模型各个参数的绝对值之和. L2是模型各个参数的平方和的开方值. 2.L1会趋向于产生少量的特征,而其他的特征都是0. 因为最优的参数值很大

正则化方法：L1和L2 regularization、数据集扩增、dropout

本文是<Neural networks and deep learning>概览中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法.(本文会不断补充) 正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合).其直观的表现如下图所示,随着训练过程,网络在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大--因为训练出来的网络过拟合了训练集,对训练集外的数据却不work

正则化方法：L1和L2 regularization、数据集扩增、dropout（转）

ps:转的.当时主要是看到一个问题是L1 L2之间有何区别,当时对l1与l2的概念有些忘了,就百度了一下.看完这篇文章,看到那个对W减小,网络结构变得不那么复杂的解释之后,满脑子的6666-------->把网络权重W看做为对上一层神经元的一个WX+B的线性函数模拟一个曲线就好.知乎大神真的多. 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 本文是<Neural networks and deep learning>概览中第三章的一部分,讲机器学习/深度学习算

机器学习中的范数规则化 L0、L1与L2范数核范数与规则项参数选择

http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 [email protected] http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一些浅显

L1 与 L2 正则化

参考这篇文章: https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc https://blog.csdn.net/jinping_shi/article/details/52433975 参考这篇文章: https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc https://blog.csdn.net/

l1和l2正则化

https://blog.csdn.net/tianguiyuyu/article/details/80438630 以上是莫烦对L1和L2的理解 l2正则:权重的平方和,也就是一个圆 l1正则:权重的绝对值之和,等价与一个正方形. 图中,正则项和损失项的交点就是最优解的位置,我们可以看到,在只有2个参数的情况下,l1倾向使得某个参数直接为0:l2倾向使得某些参数逼近0 再看下吴恩达的理解正则化的意义:在于让高阶的参数逼近0,使其对拟合函数的贡献变小:可以看到theta3和theta4,我们给

L1与L2正则化

目录过拟合结构风险最小化原理正则化 L2正则化 L1正则化 L1与L2正则化参考链接过拟合机器学习中,如果参数过多.模型过于复杂,容易造成过拟合. 结构风险最小化原理在经验风险最小化(训练误差最小化)的基础上,尽可能采用简单的模型,以提高模型泛化预测精度. 正则化为了避免过拟合,最常用的一种方法是使用正则化,例如L1和L2正则化. 所谓的正则化,就是在原来损失函数的基础上,加了一些正则化项,或者叫做模型复杂度惩罚项. L2正则化 L2正则化即:\(L=E_{in}+\lambda

正则化L1和L2

基于距离的norm1和norm2 所谓正则化,就是在损失函数中增加范数,那么老调重弹一下,所谓范数是指空间向量的大小距离之和,那么范数有值单一向量而言的范数,其实所谓单点向量其实是指指定向量到原点的距离. d = Σ||xi||· 还有针对两个向量求距离的范数:那么作为距离,最常用到的就是马哈顿距离,这个距离也被称之为norm 1: 对于两个向量norm1的应用有两个: SAD(sum of absolution,绝对偏差和)= ||x1 - x2|| = Σ|x1 - x2| MAE(mean