L1 和L2正则化,拉普拉斯分布和高斯分布

正则化是为了防止过拟合。

1. 范数

范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小。

范数的一般化定义:对实数p>=1, 范数定义如下:

L1范数:

当p=1时,是L1范数,其表示某个向量中所有元素绝对值的和。

L2范数:

当p=2时,是L2范数, 表示某个向量中所有元素平方和再开根, 也就是欧几里得距离公式。

2. 拉普拉斯分布

如果随机变量的概率密度函数分布为:

那么它就是拉普拉斯分布。其中,μ 是数学期望,b > 0 是振幅。如果 μ = 0,那么,正半部分恰好是尺度为 1/2 的指数分布。

3.高斯分布

又叫正态分布,若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:
X∼N(μ,σ2),

则其概率密度函数为:

原文地址:https://www.cnblogs.com/xinyuePhd/p/12677556.html

时间: 2024-10-10 05:19:05

L1 和L2正则化,拉普拉斯分布和高斯分布的相关文章

L1 与 L2 正则化

参考这篇文章: https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc https://blog.csdn.net/jinping_shi/article/details/52433975 参考这篇文章: https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc https://blog.csdn.net/

L1与L2正则化

目录 过拟合 结构风险最小化原理 正则化 L2正则化 L1正则化 L1与L2正则化 参考链接 过拟合 机器学习中,如果参数过多.模型过于复杂,容易造成过拟合. 结构风险最小化原理 在经验风险最小化(训练误差最小化)的基础上,尽可能采用简单的模型,以提高模型泛化预测精度. 正则化 为了避免过拟合,最常用的一种方法是使用正则化,例如L1和L2正则化. 所谓的正则化,就是在原来损失函数的基础上,加了一些正则化项,或者叫做模型复杂度惩罚项. L2正则化 L2正则化即:\(L=E_{in}+\lambda

机器学习之路: python线性回归 过拟合 L1与L2正则化

git:https://github.com/linyi0604/MachineLearning 正则化: 提高模型在未知数据上的泛化能力 避免参数过拟合正则化常用的方法: 在目标函数上增加对参数的惩罚项 削减某一参数对结果的影响力度 L1正则化:lasso 在线性回归的目标函数后面加上L1范数向量惩罚项. f = w * x^n + b + k * ||w||1 x为输入的样本特征 w为学习到的每个特征的参数 n为次数 b为偏置.截距 ||w||1 为 特征参数的L1范数,作为惩罚向量 k 为

l1和l2正则化

https://blog.csdn.net/tianguiyuyu/article/details/80438630 以上是莫烦对L1和L2的理解 l2正则:权重的平方和,也就是一个圆 l1正则:权重的绝对值之和,等价与一个正方形. 图中,正则项和损失项的交点就是最优解的位置,我们可以看到,在只有2个参数的情况下,l1倾向使得某个参数直接为0:l2倾向使得某些参数逼近0 再看下吴恩达的理解 正则化的意义:在于让高阶的参数逼近0,使其对拟合函数的贡献变小:可以看到theta3和theta4,我们给

正则化项L1和L2

L1和L2正则化项,又叫做惩罚项,是为了限制模型的参数,防止模型过你和而加在损失函数后面的一项. L1是模型的各个参数的绝对值之和 L2是模型各个参数的平方和的开方值 区别: L1会趋向于产生少量的特征,而其他的特征都是0. 从图形上理解:应为最优的参数值很大概率出现在坐标轴上,这样就导致某一维的权重为0,产生稀疏权重矩阵. 从贝叶斯的角度理解:加上正则化项L1,等同于对θ假设一个先验分布为拉普拉斯分布 L2会选择更对的特征,这些特征都会接近于0.最优参数值很小概率出现在坐标轴上,因为每一维的参

正则化方法:L1和L2 regularization、数据集扩增、dropout

本文是<Neural networks and deep learning>概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法.(本文会不断补充) 正则化方法:防止过拟合,提高泛化能力 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合).其直观的表现如下图所示,随着训练过程,网络在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大--因为训练出来的网络过拟合了训练集,对训练集外的数据却不work

正则化方法:L1和L2 regularization、数据集扩增、dropout(转)

ps:转的.当时主要是看到一个问题是L1 L2之间有何区别,当时对l1与l2的概念有些忘了,就百度了一下.看完这篇文章,看到那个对W减小,网络结构变得不那么复杂的解释之后,满脑子的6666-------->把网络权重W看做为对上一层神经元的一个WX+B的线性函数模拟一个曲线就好.知乎大神真的多. 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 本文是<Neural networks and deep learning>概览 中第三章的一部分,讲机器学习/深度学习算

机器学习中正则化项L1和L2的直观理解

正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作?1-norm和?2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数. L1正则化和L2正则化可以看做是损失函数的惩罚项.对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归).下图是Python中Lasso回归的损失函数,式中加号后面一项α||w||1即为L1正则化项. 下图是Python中Ri

L1比L2更稀疏

1. 简单列子: 一个损失函数L与参数x的关系表示为: 则 加上L2正则化,新的损失函数L为:(蓝线) 最优点在黄点处,x的绝对值减少了,但依然非零. 如果加上L1正则化,新的损失函数L为:(粉线) 最优点为红点,变为0,L1正则化让参数的最优值变为0,更稀疏. L1在江湖上人称Lasso,L2人称Ridge. 两种正则化,能不能将最优的参数变为0,取决于最原始的损失函数在0点处的导数,如果原始损失函数在0点处的导数不为0,则加上L2正则化之后(+2Cx),导数依然不为0.而加上L1正则化(导数