L1 和L2正则化，拉普拉斯分布和高斯分布

正则化是为了防止过拟合。

1. 范数

范数是衡量某个向量空间（或矩阵）中的每个向量以长度或大小。

范数的一般化定义：对实数p>=1，范数定义如下：

L1范数：

当p=1时，是L1范数，其表示某个向量中所有元素绝对值的和。

L2范数：

当p=2时，是L2范数，表示某个向量中所有元素平方和再开根，也就是欧几里得距离公式。

2. 拉普拉斯分布

如果随机变量的概率密度函数分布为:

那么它就是拉普拉斯分布。其中，μ 是数学期望，b > 0 是振幅。如果 μ = 0，那么，正半部分恰好是尺度为 1/2 的指数分布。

3.高斯分布

又叫正态分布，若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布，记为：
X∼N(μ,σ2),

则其概率密度函数为:

原文地址：https://www.cnblogs.com/xinyuePhd/p/12677556.html

时间： 2024-10-10 05:19:05

L1 和L2正则化，拉普拉斯分布和高斯分布的相关文章

L1 与 L2 正则化

参考这篇文章: https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc https://blog.csdn.net/jinping_shi/article/details/52433975 参考这篇文章: https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc https://blog.csdn.net/

L1与L2正则化

目录过拟合结构风险最小化原理正则化 L2正则化 L1正则化 L1与L2正则化参考链接过拟合机器学习中,如果参数过多.模型过于复杂,容易造成过拟合. 结构风险最小化原理在经验风险最小化(训练误差最小化)的基础上,尽可能采用简单的模型,以提高模型泛化预测精度. 正则化为了避免过拟合,最常用的一种方法是使用正则化,例如L1和L2正则化. 所谓的正则化,就是在原来损失函数的基础上,加了一些正则化项,或者叫做模型复杂度惩罚项. L2正则化 L2正则化即:\(L=E_{in}+\lambda

机器学习之路： python线性回归过拟合 L1与L2正则化

git:https://github.com/linyi0604/MachineLearning 正则化: 提高模型在未知数据上的泛化能力避免参数过拟合正则化常用的方法: 在目标函数上增加对参数的惩罚项削减某一参数对结果的影响力度 L1正则化:lasso 在线性回归的目标函数后面加上L1范数向量惩罚项. f = w * x^n + b + k * ||w||1 x为输入的样本特征 w为学习到的每个特征的参数 n为次数 b为偏置.截距 ||w||1 为特征参数的L1范数,作为惩罚向量 k 为

l1和l2正则化

https://blog.csdn.net/tianguiyuyu/article/details/80438630 以上是莫烦对L1和L2的理解 l2正则:权重的平方和,也就是一个圆 l1正则:权重的绝对值之和,等价与一个正方形. 图中,正则项和损失项的交点就是最优解的位置,我们可以看到,在只有2个参数的情况下,l1倾向使得某个参数直接为0:l2倾向使得某些参数逼近0 再看下吴恩达的理解正则化的意义:在于让高阶的参数逼近0,使其对拟合函数的贡献变小:可以看到theta3和theta4,我们给

正则化项L1和L2

L1和L2正则化项,又叫做惩罚项,是为了限制模型的参数,防止模型过你和而加在损失函数后面的一项. L1是模型的各个参数的绝对值之和 L2是模型各个参数的平方和的开方值区别: L1会趋向于产生少量的特征,而其他的特征都是0. 从图形上理解:应为最优的参数值很大概率出现在坐标轴上,这样就导致某一维的权重为0,产生稀疏权重矩阵. 从贝叶斯的角度理解:加上正则化项L1,等同于对θ假设一个先验分布为拉普拉斯分布 L2会选择更对的特征,这些特征都会接近于0.最优参数值很小概率出现在坐标轴上,因为每一维的参

正则化方法：L1和L2 regularization、数据集扩增、dropout

本文是<Neural networks and deep learning>概览中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法.(本文会不断补充) 正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合).其直观的表现如下图所示,随着训练过程,网络在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大--因为训练出来的网络过拟合了训练集,对训练集外的数据却不work

正则化方法：L1和L2 regularization、数据集扩增、dropout（转）

ps:转的.当时主要是看到一个问题是L1 L2之间有何区别,当时对l1与l2的概念有些忘了,就百度了一下.看完这篇文章,看到那个对W减小,网络结构变得不那么复杂的解释之后,满脑子的6666-------->把网络权重W看做为对上一层神经元的一个WX+B的线性函数模拟一个曲线就好.知乎大神真的多. 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 本文是<Neural networks and deep learning>概览中第三章的一部分,讲机器学习/深度学习算

机器学习中正则化项L1和L2的直观理解

正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作?1-norm和?2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数. L1正则化和L2正则化可以看做是损失函数的惩罚项.对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归).下图是Python中Lasso回归的损失函数,式中加号后面一项α||w||1即为L1正则化项. 下图是Python中Ri

L1比L2更稀疏

1. 简单列子: 一个损失函数L与参数x的关系表示为: 则加上L2正则化,新的损失函数L为:(蓝线) 最优点在黄点处,x的绝对值减少了,但依然非零. 如果加上L1正则化,新的损失函数L为:(粉线) 最优点为红点,变为0,L1正则化让参数的最优值变为0,更稀疏. L1在江湖上人称Lasso,L2人称Ridge. 两种正则化,能不能将最优的参数变为0,取决于最原始的损失函数在0点处的导数,如果原始损失函数在0点处的导数不为0,则加上L2正则化之后(+2Cx),导数依然不为0.而加上L1正则化(导数