如何理解机器学习/统计学中的各种范数norm | L1 | L2 | 使用哪种regularization方法?

参考:

L1 Norm Regularization and Sparsity Explained for Dummies 专为小白解释的文章,文笔十分之幽默

  1. why does a small L1 norm give a sparse solution?
  2. why does a sparse solution avoid over-fitting?
  3. what does regularization do really?

减少feature的数量可以防止over fitting,尤其是在特征比样本数多得多的情况下。

L1就二维而言是一个四边形(L1 norm is |x| + |y|),它是只有形状没有大小的,所以可以不断伸缩。我们得到的参数是一个直线(两个参数时),也就是我们有无数种取参数的方法,但是我们想满足L1的约束条件,所以 要选择相交点的参数组。

Then why not letting p < 1? That’s because when p < 1, there are calculation difficulties. 所以我们通常只在L1和L2之间选,这是因为计算问题,并不是不能。

l0-Norm, l1-Norm, l2-Norm, … , l-infinity Norm

  where 

就是一个简单的公式而已,所有的范数瞬间都可以理解了。(注意范数的写法,写在下面,带双竖杠)

Before answering your question I need to edit that Manhattan norm is actually L1 norm and Euclidean norm is L2.

As for real-life meaning, Euclidean norm measures the beeline/bird-line distance, i.e. just the length of the line segment connecting two points. However, when we move around, especially in a crowded city area like Manhattan, we obviously cannot follow a straight line (unless you can fly like a bird). Instead, we need to follow a grid-like route, e.g. 3 blocks to teh west, then 4 blocks to the south. The length of this grid route is the Manhattan norm.

之前的印象是L1就是Lasso,是一个四边形,相当于绝对值。

L2就是Ridge,相当于是一个圆。

原文地址:https://www.cnblogs.com/leezx/p/8734273.html

时间: 2024-08-12 22:25:34

如何理解机器学习/统计学中的各种范数norm | L1 | L2 | 使用哪种regularization方法?的相关文章

机器学习中的规则化范数(L0, L1, L2, 核范数)

目录: 一.L0,L1范数 二.L2范数 三.核范数 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正.谢谢. 监督机器学习问题无非就是"minimizeyour error while regularizing your parameters",也

机器学习算法中的过拟合与欠拟合

在机器学习表现不佳的原因要么是过度拟合或欠拟合数据. 机器学习中的逼近目标函数过程 监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y). Y=f(X)Y=f(X) 这种特性描述可以用于定义分类和预测问题和机器学习算法的领域. 从训练数据中学习目标函数的过程中,我们必须考虑的问题是模型在预测新数据时的泛化性能.泛化好坏是很重要的,因为我们收集到的数据只是样本,其带有噪音并且是不完全的. 机器学习中的泛化 在In机器学习中,我们描述从训练数据学习目标函数的

深入理解机器学习:从原理到算法pdf

下载地址:网盘下载 本书涵盖了机器学习领域中的严谨理论和实用方法,讨论了学习的计算复杂度.凸性和稳定性.PAC-贝叶斯方法.压缩界等概念,并介绍了一些重要的算法范式,包括随机梯度下降.神经元网络以及结构化输出. 全书讲解全面透彻,适合有一定基础的高年级本科生和研究生学习,也适合作为IT行业从事数据分析和挖掘的专业人员以及研究人员参考阅读. David的专著<Understanding Machine Learning:From Theory to Algorithms>是机器学习领域一部具有里

熟读高数才能理解机器学习?不,初中数学就够了

导读 谁说理解机器学习必须要熟读高数? 近日,数据科学Kyle在Medium发布博客表示,理解机器学习在做的事情,有初中数学知识足矣. 这篇博客简洁易懂.幽默风趣,在Medium上几天内获得600多赞.量子位将文章翻译整理如下,与大家分享: 当下理解我们人工智能的方式通常比较极端,要么通过媒体,越来越耸人听闻的观点让人难以想象.要么通过文献,充满晦涩语言和特定术语的论文让人难以理解. 理解AI的正确姿势应该在两个极端之间,这就需要你在新闻或文献之外理性判断,对于一般人来说,至少应该知道AI是什么

理解机器学习

理解机器学习 0. 前言 当决定想写这篇文章,以对前段时间的学习做个总结,同时对自己的努力有所交代的时候,一个难题摆在了我的面前:人工智能的命题太大,我驾驭不了.而选择一个具体的题目,其容量又不足以表达作者的思路.这与我们设计网络.选择参数何其相似! 最终,我选择了机器学习这个不大不小的范围.题目也是增删数次,风格一变再变,最终还是定了这个严肃一点的.希望大家能够喜欢. 当提到机器学习的时候,我们必须要弄清楚几个问题: 希望学到什么? 用什么方法学? 学习的效果如何? 不能学得更好的原因是什么?

从零实现来理解机器学习算法:书籍推荐及障碍的克服

前部为英文原文,原文链接:http://machinelearningmastery.com/understand-machine-learning-algorithms-by-implementing-them-from-scratch/ 后部为中文翻译,本文中文部分转自:http://www.csdn.net/article/2015-09-08/2825646 Understand Machine Learning Algorithms By Implementing Them From

统计学中的自由度

数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断.数理统计方法具有“部分推断整体”的特征. 数学中的自由度一般是指能够自由取值的变量个数.数理统计中的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,自由度通常记为df.数理统计上的这个定义可以从如下几个方面来理解: 第一,“统计量”(如样本数据的平均数X.样本数据的标准差)是研究者通过调查样本的数据人为地计算出

机器学习项目中常见的误区

http://blog.jobbole.com/86131/ 机器学习项目中常见的误区 2015/04/22 · IT技术 · 机器学习 分享到:7 2015 Oracle技术嘉年华 Java实现图片水印 学写一个字 前端性能优化-基础知识认知 本文由 伯乐在线 - ruan.answer 翻译,Daetalus 校稿.未经许可,禁止转载!英文出处:machinelearningmastery.欢迎加入翻译组. 在最近的一次报告中,Ben Hamner向我们介绍了他和他的同事在Kaggle比赛中

人肉工程在机器学习实践中的作用

关于人肉工程,包括业务知识.领域知识,经验等,在实际的机器学习问题中的应用,是一个屡见不鲜的话题,典型的有苦逼的数据清洗.人肉特征工程等.大家都想把尽可能多的过程由机器自动完成,但是目前的状态是,大部分机器学习问题中,最困难也最重要的部分,还是依靠人的经验来生成特征.那么人的经验为什么重要,能否用机器完成这个过程,本文试作一简单分析. 机器和人看待数据的区别 首先要看一下,从机器的角度看,机器学习是怎样一个问题?在机器看来,机器学习的问题通常是在一组特征上,最大化某个目标函数.注意,对于这组特征