machine learning--L1 ,L2 norm

  关于L1范数和L2范数的内容和图示,感觉已经看过千百遍,刚刚看完此大牛博客http://blog.csdn.net/zouxy09/article/details/24971995/,此时此刻终于弄懂了那么一丢丢,赶紧“趁热”记录一番!

从两个方面看L1 norm和L2 norm的不同:

1.下降速度:

L1L2都是规则化的方式,我们将权值参数 w L1或者L2范数的方式加到目标函数中。然后模型就会尝试去最小化这些权值参数。

通用目标函数形式:

  

  而这个最小化就像一个下坡的过程,L1和L2的差别就在于这个“坡”不同,如下图:

  L1就是按绝对值函数的“坡”下降的,而L2是按二次函数的“坡”下降。所以实际上在0附近,L1的下降速度比L2的下降速度要快。所以会非常快得降到0。

  L1 在民间人称LassoL2 人称Ridge。在《机器学习实战》一书中chapter 8介绍回归的章节中介绍“缩减法”时有提到岭回归和Lasso.

2.模型空间的限制:

实际上,对于L1L2规则化的损失函数来说,我们可以写成以下形式:

  

  也就是说,我们将模型空间限制在w的一个L1-ball 中。为了便于可视化,我们考虑两维的情况,在(w1, w2)平面上可以画出目标函数的等高线,而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解:

  可以看到,L1-ball 与L2-ball 的不同就在于L1在和每个坐标轴相交的地方都有“角”出现,而目标函数的测地线除非位置摆得非常好,大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性,例如图中的相交点就有w1=0,而更高维的时候(想象一下三维的L1-ball 是什么样的?)除了角点以外,还有很多边的轮廓也是既有很大的概率成为第一次相交的地方,又会产生稀疏性。

相比之下,L2-ball 就没有这样的性质因为没有角,所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么L1-regularization 能产生稀疏性,而L2-regularization 不行的原因了。

因此,一句话总结就是:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。

时间: 2024-12-28 21:31:32

machine learning--L1 ,L2 norm的相关文章

Awesome Machine Learning

Awesome Machine Learning  A curated list of awesome machine learning frameworks, libraries and software (by language). Inspired by awesome-php. If you want to contribute to this list (please do), send me a pull request or contact me @josephmisiti Als

A Gentle Introduction to the Gradient Boosting Algorithm for Machine Learning

A Gentle Introduction to the Gradient Boosting Algorithm for Machine Learning by Jason Brownlee on September 9, 2016 in XGBoost 0 0 0 0 Gradient boosting is one of the most powerful techniques for building predictive models. In this post you will dis

Machine Learning Yearning - Andrew NG

链接(1~12章): https://gallery.mailchimp.com/dc3a7ef4d750c0abfc19202a3/files/Machine_Learning_Yearning_V0.5_01.pdf链接(第13章): https://gallery.mailchimp.com/dc3a7ef4d750c0abfc19202a3/files/Machine_Learning_Yearning_V0.5_02.pdf链接(第14章): https://gallery.mailc

[machine learning] Loss Function view

[machine learning] Loss Function view 有关Loss Function(LF),只想说,终于写了 一.Loss Function 什么是Loss Function?wiki上有一句解释我觉得很到位,引用一下:The loss function quantifies the amount by which the prediction deviates from the actual values.Loss Function中文损失函数,适用于用于统计,经济,机

Machine Learning Basic Knowledge

常用的数据挖掘&机器学习知识(点) Basis(基础): MSE(MeanSquare Error 均方误差),LMS(Least MeanSquare 最小均方),LSM(Least Square Methods 最小二乘法),MLE(Maximum LikelihoodEstimation最大似然估计),QP(QuadraticProgramming 二次规划), CP(ConditionalProbability条件概率),JP(Joint Probability 联合概率),MP(Mar

Machine Learning Done Wrong

Machine Learning Done Wrong Statistical modeling is a lot like engineering. In engineering, there are various ways to build a key-value storage, and each design makes a different set of assumptions about the usage pattern. In statistical modeling, th

Machine Learning Algorithms Study Notes(2)--Supervised Learning

Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 2    Supervised Learning    3 2.1    Perceptron Learning Algorithm (PLA)    3 2.1.1    PLA -- "知错能改"演算法    4 2.2    Linear Regression    6 2.2.1    线性回归模型    6 2.2.2    最小二乘法( le

机器学习系统设计(Building Machine Learning Systems with Python)- Willi Richert Luis Pedro Coelho

机器学习系统设计(Building Machine Learning Systems with Python)- Willi Richert Luis Pedro Coelho 总述 本书是 2014 的,看完以后才发现有第二版的更新,2016.建议阅读最新版,有能力的建议阅读英文版,中文翻译有些地方比较别扭(但英文版的书确实是有些贵). 我读书的目的:泛读主要是想窥视他人思考的方式. 作者写书的目标:面向初学者,但有时间看看也不错.作者说"我希望它能激发你的好奇心,并足以让你保持渴望,不断探索

Attention Please!TWO HUNDREDS OF machine learning turorial summary

Machine Learning The First Column The Second Column Machine Learning 1 从机器学习入手 Machine Learning 2 机器学习很有趣! Machine Learning 3 机器学习规则:ML工程的最佳实践 Machine Learning 4 机器学习速成课程:第一部分 Machine Learning 5 第二部分;伯克利机器学习 Machine Learning 6 第三部分;伯克利机器学习 Machine Le