L1和L2正则化项,又叫做惩罚项,是为了限制模型的参数,防止模型过你和而加在损失函数后面的一项。
- L1是模型的各个参数的绝对值之和
- L2是模型各个参数的平方和的开方值
区别:
- L1会趋向于产生少量的特征,而其他的特征都是0。
- 从图形上理解:应为最优的参数值很大概率出现在坐标轴上,这样就导致某一维的权重为0,产生稀疏权重矩阵。
- 从贝叶斯的角度理解:加上正则化项L1,等同于对θ假设一个先验分布为拉普拉斯分布
- L2会选择更对的特征,这些特征都会接近于0。最优参数值很小概率出现在坐标轴上,因为每一维的参数都不会是0。当最小化||W||时,就会使每一项趋近于0,而不是稀疏。
-
- 从图上上理解:L2约束条件在解空间中没有角,因而更倾向于约束其值的大小,而不是使其为0
- 从贝叶斯的角度理解:L2相当于给θ一个先验分布为高斯分布。
作用:L1正则化可以产生稀疏模型,L2正则化项可以防止过拟合(因为拟合的过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合数据(抗扰动能力))。
参考:
李航《统计学习方法》
http://www.cnblogs.com/lyr2015/p/8718104.html
https://blog.csdn.net/YoYoDelphine/article/details/52888315
https://blog.csdn.net/jinping_shi/article/details/52433975
原文地址:https://www.cnblogs.com/R-dog/p/9737465.html
时间: 2024-10-06 16:19:04