正则化笔记

吉谱斯现象Gibbs(又叫吉谱斯效应): 用有限项傅里叶级数表示有间断点的信号时,在间断点附近不可避免的会出现振荡和超量。超量的幅度不会随所取项数的增加而减小。只是随着项数的增多,振荡频率变高,并向间断点处压缩,从而使它所占有的能量减少。当选取项数趋于无穷时,超量趋于一个常数,约占9%,这种现象称为吉普斯现象。
正则化的理解:
    正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。
约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的l-norm先验,表示原问题更可能是比较简单的,这样的优化倾向于产生参数值量级小的解,一般对应于稀疏参数的平滑解)。
    同时正则化,解决了逆问题的不适定性,产生的解是存在,唯一同时也依赖于数据的,噪声对不适定的影响就弱,解就不会过拟合,而且如果先验(正则化)合适,则解就倾向于是符合真解(更不会过拟合了),即使训练集中彼此间不相关的样本数很少。
   为什么我们要得到稀疏性的特征表示呢?当然是为了防止过拟合,提高泛化能力,更好地解释模型....其实,从生物学的角度,人脑中的大量神经元,当受到外界刺激(图像或者声音)时,只有少量的神经元被激活,大部分神经元处于抑制状态。
正则化项可以是模型参数向量的范数。不同的正则化项对参数w的约束不同,取得的效果也不同,常见的正则化项:零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。
    L2范数可以防止过拟合,提升模型的泛化能力;从优化或者数值计算的角度来说,L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题。
    L1范数是指向量中各个元素绝对值之和,又叫“稀疏规则算子”(Lasso regularization)。

时间: 2024-08-28 20:02:13

正则化笔记的相关文章

Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化”

Coursera公开课笔记: 斯坦福大学机器学习第七课"正则化" NLPJob 斯坦福大学机器学习第七课"正则化"学习笔记,本次课程主要包括4部分: 1) The Problem of Overfitting(过拟合问题) 2) Cost Function(成本函数) 3) Regularized Linear Regression(线性回归的正则化) 4) Regularized Logistic Regression(逻辑回归的正则化) 以下是每一部分的详细解读

斯坦福CS229机器学习课程笔记六:学习理论、模型选择与正则化

稍微了解有监督机器学习的人都会知道,我们先通过训练集训练出模型,然后在测试集上测试模型效果,最后在未知的数据集上部署算法.然而,我们的目标是希望算法在未知的数据集上有很好的分类效果(即最低的泛化误差),为什么训练误差最小的模型对控制泛化误差也会有效呢?这一节关于学习理论的知识就是让大家知其然也知其所以然. 学习理论 1.empirical risk minimization(经验风险最小化) 假设有m个样本的训练集,并且每个样本都是相互独立地从概率分布D中生成的.对于假设h,定义training

9月5日 正则化总结笔记

---恢复内容开始--- 学习正则化 一下知识需要全部掌握: 1.线性回归 2.逻辑回归 接下来的笔记中,将假设上面的基础知识全部掌握的程度讲解: 学习 正则化 首先 我们需要知道为什么学习正则化! 无论是我们在进行线性拟合 还是逻辑拟合的时候,都会发生以下三种情况: . 根据图可以看到3中情况,我们来说明以下这三种情况 1.欠拟合,这里拟合的一条 方程 看起来并没有更好的契合我们所给的训练集,  因此 这样的 一个方程 对我们之后 正常使用时 , 预测产生的误差会非常之大 2.正好的拟合, 这

机器学习笔记(九)正则化

一.过拟合问题 分类模型复杂.数据资料含有噪声.数据量少的情况下能发生过拟合的现象,对于不同的模型复杂度,随着资料量的增大,模型的Ein和Eout变化为: 噪声.模型复杂度与数据资料量三者对于过拟合的影响: 二.正则化 对于较为复杂的模型,需要加入正则化,是高次的项系数权重为0(或接近零),使之变为较低的次方项的模型,以防止过拟合的发生. 例如,将Q为10次方的复杂模型,正则化为Q为2次方的模型,条件为 直接求解使w为0的不太容易,是一个NP-hard问题,所以转化为求,即 等价于求解最小的,即

笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程)

一.正则化背景 监督机器学习问题无非就是"minimizeyour error while regularizing your parameters",也就是在规则化参数的同时最小化误差.最小化误差是为了让我们的模型拟合我们的训练数据, 而规则化参数是防止我们的模型过分拟合我们的训练数据. 问题背景:参数太多,会导致我们的模型复杂度上升,容易过拟合. 作用: 1.约束参数,降低模型复杂度. 2.规则项的使用还可以约束我们的模型的特性.这样就可以将人对这个模型的先验知识融入到模型的学习当

斯坦福大学Andrew Ng - 机器学习笔记(2) -- 逻辑回归 & 正则化

大概用了一个月,Andrew Ng老师的机器学习视频断断续续看完了,以下是个人学习笔记,入门级别,权当总结.笔记难免有遗漏和误解,欢迎讨论. 鸣谢:中国海洋大学黄海广博士提供课程视频和个人笔记,在此深表感谢!

机器学习笔记—正则化和模型选择

如果针对某个学习问题,从众多模型中选择一个模型,能够在偏差和方差中做一个平衡,怎么样才能自动选择呢?例如,使用多项式回归模型 h(x)=g(θ0+θ1x+θ2x2+...+θkxk),想自动决定 k 的值,在 0~10 之间选择.再比如,要自动选择局部权重回归中的带宽参数 τ,或者 L1 正则化 SVM 的参数 C,怎么做呢? 设有有限个模型 M={M1,...,Md} 供选择,例如在上面的例子中,M 可以是一个 i 项式回归模型.如果想要在 SVM.神经网络和 Logistic 回归之间选择,

吴恩达-深度学习-课程笔记-8: 超参数调试、Batch正则化和softmax( Week 3 )

1 调试处理( tuning process ) 如下图所示,ng认为学习速率α是需要调试的最重要的超参数. 其次重要的是momentum算法的β参数(一般设为0.9),隐藏单元数和mini-batch的大小. 第三重要的是神经网络的层数和学习率衰减 adam算法的三个参数一般不调整,设定为0.9, 0.999, 10^-8. 注意这些直觉是ng的经验,ng自己说了,可能其它的深度学习研究者是不这么认为的. 那么如何选择参数呢?下面介绍两个策略,随机搜索和精细搜索. 早一代的机器学习算法中,如下

]DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试、正则化以及优化--Week2优化算法

1. Mini batch梯度下降法 介绍 假设我们的数据量非常多,达到了500万以上,那么此时如果按照传统的梯度下降算法,那么训练模型所花费的时间将非常巨大,所以我们对数据做如下处理: 如图所示,我们以1000为单位,将数据进行划分,令$x^{\{1\}}=\{x^{(1)},x^{(2)}……x http://pic.cnhubei.com/space.php?uid=1132&do=album&id=825921http://pic.cnhubei.com/space.php?uid