机器为什么可以学习(3)----vc维

1、主要内容

  上节课讲述了vc bound,表明了在去break point为最小的break point时,mH(N)的上限是vc bound是一个多项式级别的上限;

  

  vc维定义为当输入数据为N个点时,有一个假设空间H可以准确无误的将这N个点所有的分类情况都覆盖,那么假设空间的H的vc维就是N,当一个假设空间H维有限(霍夫丁不等式的上限的参数mH(N)为有限的,因此bad的概率就会变得很小)时,当数据输入量够大(即霍夫丁不等式中的参数N,当N越大时,霍夫丁的上限就越小)时,学习就是可能的。

2、vc 维的定义

  当成长函数mH(N)存在break point时,其上限会被一个bound function所限制,同时这个bound function是一个多项式:

  

  因此,在成长函数存在break point同时输入数据规模N很大时,Ein ≈ Eout在很大的概率上都是正确的,保证了经训练数据训练得出的模型可以使用在测试数据上。

  经过两组数据可知:

  

  在N很大的情况下B(N,k) << Nk-1,因此有:

  

  当vc bound存在时,对于hypothesis set中的任意一个hypothesis来说,霍夫丁不等式都是成立的也就是:

  

  如果将成长函数mH(N)换成vc bound的上限,那么上述不等式可以写成:

  

  因此,根据某演算法从hypothesis set中选择的函数 g 必然也满足上式:

  

  上式成立的前提条件为:

  (1) 成长函数存在break point

  (2) 训练数据量够大

  

  如果存在一个好的算法可以从hypothesis set中挑选出一个Ein最小的函数 g 那么学习的确是可行的。

  

  到目前,学习可行性的有了一定的理论支撑,此时的情况都是理想的情况,包括理想的hypothesis set(成长函数存在break point),理想的数据规模(够大), 理想的演算法,实际情况以上都不能决定保证,只是大概率的情况下可以保证,因此可以说大概做到学习。

  那么vc 维什么定义?vc 维与break point紧密联系:

  

  也就是说,vc维表示的hypothesis set 可以覆盖到数据规模中每一个特征的取值的情况的最大值,也就是break point的前面一个:

  

  当输入数据规模小于vc 维时,表示hypothesis set 可以全部覆盖到某些数据集,此时考虑的时不同的数据集整体的关系。

  当数据输入规模大于vc 维时,表示此时的输入数据的规模N就是一个break point,因为vc 维决定了可以shatter的最大值,大于vc维的都是break point;

  

  因此上节课中成长函数的vc bound 可以写作:

  

  dvc = k - 1;

  几种vc 维:

  

  因此一个好的hypothesis set就是其vc 维有限;

  vc维对于学习来说有什么好处?两者有什么联系?

  vc 维有限可以保证Ein和Eout 在训练数据和测试数据上很接近,同时:

  (1)不考虑算法的影响,无论演算法选择的hypothesis 是好还是坏,vc维有限都可以保证Ein和Eout很接近;

  (2)之前的讨论中只是说输入数据是符合同一分布的,但是并不指定特定的分布,

  (3)不用考虑target 函数f,

  在以上的条件下一个完整的学习流程如下:

  

  3 感知机模型的vc维

  感知机模型的学习操作流程:

  

  (1)、线性可分的数据集的情况下

  (2)、PLA算法可以收敛,可以选择出一个函数使得Ein很小或者为0

  (3)、经过多次迭代选择后,可以找到目标函数。

  感知机模型操作流程对应的理论流程:

  

  (1)、数据来源于同一分布,且目标函数存在

  (2)、由于二维感知机模型的vc维为3,因此霍夫丁不等式成立,学习可行;

  (3)、如果数据量够大,可以得出Ein ≈ Eout

  以上是二维感知机模型的学习流程,那么对于3维或者更高维的感知机模型,是否有同样的理论?

  主要就是求解多维的感知机模型的vc维的值,已知的如下:

  

  经证明d维感知机模型的vc维的计算公式为 dvc = d + 1。

  4、 vc维的物理意义

  前面分析了d维感知机模型的vc维的计算公式:dvc = d + 1,那么具体来说vc维的物理含义是什么?表示hypothesis set 参数w的自由度;

  5、vc维结合霍夫丁不等式的使用

  (1)、估算需要的数据量

  (2)、计算模型的复杂度

  

  

  

  

  

  

时间: 2024-11-05 12:21:52

机器为什么可以学习(3)----vc维的相关文章

机器为什么可以学习(4)---错误和噪声

1.课程主要内容 上节课中学习了VC维的相关只是,在hypothesis set的VC维有限,且输入数据N够大,并可以找到一个足够小的Ein,那么学习就是可能的. 但是在实际的情况中,数据来源不都是理想的,必然存在着错误和噪声,本次课程讨论在错误和噪声存在的情况下,机器为什么还可以学习? 在噪声和错误存在的请款下,vc bound如何进行放缩使得学习在理论上是可行. 2.噪声存在下的学习 在之前的学习流程图中,在分布的部分加上了噪声,这个时候会对之前的推导有什么影响? 噪声来源: 数据部分和标签

解读机器学习基础概念:VC维的来龙去脉

原作者:vincentyao  原文链接: http://dataunion.org/14581.html 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function Break Point与Shatter VC Bound VC dimension 深度学习与VC维 小结 参考文献 VC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学

VC维的来龙去脉(转载)

原始来源已不可考,作者名为:火光摇曳.本文仅做学习之用,如有侵权,请联系我. 本文来源:http://www.thebigdata.cn/JiShuBoKe/14027.html 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function Break Point与Shatter VC Bound VC dimension 深度学习与VC维 小结 参考

【转载】VC维的来龙去脉

本文转载自 火光摇曳 原文链接:VC维的来龙去脉 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function Break Point与Shatter VC Bound VC dimension 深度学习与VC维 小结 参考文献 VC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学习性提供了坚实的理论基础,但有时候,特别是对我们工程师而言

VC维的来龙去脉

目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function Break Point与Shatter VC Bound VC dimension 深度学习与VC维 小结 参考文献 VC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学习性提供了坚实的理论基础,但有时候,特别是对我们工程师而言,SVM,LR,深度学习等可能都已经用到线上了,但

svm、经验风险最小化、vc维

原文:http://blog.csdn.net/keith0812/article/details/8901113 “支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上” 结构化风险 结构化风险 = 经验风险 + 置信风险 经验风险 =  分类器在给定样本上的误差 置信风险 = 分类器在未知文本上分类的结果的误差 置信风险因素: 样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小: 分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大. 提高样本

【机器学习基础】理解为什么机器可以学习3——VC理论

引入 上一小节中,"理解为什么机器可以学习--Hoeffding不等式"中,我们介绍了有限假设空间中的概率边界.在这篇文章中,我们将推广至无限假设空间中,进而引入VC理论. 面临待解决的问题 上一节,我们证明了PAC学习的样本复杂度随假设空间对数增长,但是以假设空间的个数|H|来刻画样本复制度存在缺点: 对于|H|很大的情形,会使一个很弱的边界,即出现错误的概率很大 对于无限假设空间的情形无法应用 所以,我们要考虑H的复杂度的另一种度量方式,称为H的Vapnik-Chervonenki

统计机器学习理论:随机熵、vc熵、退火VC熵、生长函数、VC维定义理解

一.定义: 有n个训练样本Zn={zi(xi,yi), i=1,2,...,n},定义N(Zn)为函数集中的函数能对样本分类的数目.        解释:xi 代表特征向量如d维特征向量,yi代表一个标记如0或1, 因此zi就是对一个特征的标记,Zn中有n个样本,可能的标记方式2n种,一种标记方式就生成一种样本集: N(Zn)为Zn的标记空间中能被正确分类的标记数量. 举例:在二维特征空间中,不共线的3个二维特征向量,其标记方式有23=8种,每一种标记方式都能被指示函数集二维线性分类器正确分类,

VC维

有关于VC维可以在很多机器学习的理论中见到,它是一个重要的概念.在读<神经网络原理>的时候对一个实例不是很明白,通过这段时间观看斯坦福的机器学习公开课及相关补充材料,又参考了一些网络上的资料(主要是这篇,不过个人感觉仍然没有抓住重点),重新思考了一下,终于理解了这个定义所要传达的思想. 先要介绍打散(shatter)的概念:对于一个给定集合S={x1, ... ,xd},如果一个假设类H能够实现集合S中所有元素的任意一种标记方式,则称H能够打散S.例如下图S={x1,x2, x3},它们的取值