正则化笔记

吉谱斯现象Gibbs（又叫吉谱斯效应）：用有限项傅里叶级数表示有间断点的信号时，在间断点附近不可避免的会出现振荡和超量。超量的幅度不会随所取项数的增加而减小。只是随着项数的增多，振荡频率变高，并向间断点处压缩，从而使它所占有的能量减少。当选取项数趋于无穷时，超量趋于一个常数，约占9%，这种现象称为吉普斯现象。
正则化的理解：
正则化就是对最小化经验误差函数上加约束，这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。
约束有引导作用，在优化误差函数的时候倾向于选择满足约束的梯度减少的方向，使最终的解倾向于符合先验知识(如一般的l-norm先验，表示原问题更可能是比较简单的，这样的优化倾向于产生参数值量级小的解，一般对应于稀疏参数的平滑解)。
同时正则化，解决了逆问题的不适定性，产生的解是存在，唯一同时也依赖于数据的，噪声对不适定的影响就弱，解就不会过拟合，而且如果先验(正则化)合适，则解就倾向于是符合真解(更不会过拟合了)，即使训练集中彼此间不相关的样本数很少。
为什么我们要得到稀疏性的特征表示呢？当然是为了防止过拟合，提高泛化能力，更好地解释模型....其实，从生物学的角度，人脑中的大量神经元，当受到外界刺激（图像或者声音）时，只有少量的神经元被激活，大部分神经元处于抑制状态。
正则化项可以是模型参数向量的范数。不同的正则化项对参数w的约束不同，取得的效果也不同，常见的正则化项：零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。
L2范数可以防止过拟合，提升模型的泛化能力；从优化或者数值计算的角度来说，L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题。
L1范数是指向量中各个元素绝对值之和，又叫“稀疏规则算子”（Lasso regularization）。

时间： 2024-11-05 12:27:49

正则化笔记

正则化笔记的相关文章

Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化”

斯坦福CS229机器学习课程笔记六：学习理论、模型选择与正则化

9月5日正则化总结笔记

机器学习笔记（九）正则化

笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归（稀疏与特征工程）

斯坦福大学Andrew Ng - 机器学习笔记（2） -- 逻辑回归 & 正则化

机器学习笔记—正则化和模型选择

吴恩达-深度学习-课程笔记-8: 超参数调试、Batch正则化和softmax( Week 3 )

]DeepLearning.ai学习笔记（二）改善深层神经网络：超参数调试、正则化以及优化--Week2优化算法