机器学习基石笔记-Lecture 5-7 VC dimension

为了引出VC维做了很长的铺垫。。VC维:用来描述假设空间的表达能力。

第四节讲到对有限的假设空间,只要N足够大,不管A如何选g,训练数据如何选取,g的训练错误率和真实的错误率都很接近。

现在先解决无限假设空间的问题。

希望找到一个 m_H 来替代无限大的M。

系数M的来源是因为对bad data的概率值进行了累加。

但是其实一些h在同一个data上是重叠的,union bound将概率放大了。这样就希望对h进行一些划分,找出在data上表现类似的h,归为一类。

这里举出了二维感知机分类的例子,来说明平面上只存在有限个h类。

然后引出 成长函数和 break point的概念。

dichotomy: 二分

 假设空间对N个有限的样本的各种划分产生相应的分割平面的个数,有上界2^N。

成长函数:

几种成长函数

如果想用成长函数替代M,希望m_H(N)不要随N增长的太快。

shatter:

数据集D被假设空间H打散(shatter),当且仅当对D的每个划分,存在H中的某假设与此划分一致。即当D的每种可能划分可由H中的某个假设来表达时,称H打散D。

如果一个数据集合没有被假设空间打散,那么必然存在某种划分可被定义在数据集中,但不能由假设空间表示。

H的这种打散数据集合的能力是其在这些数据上定义目标函数的表示能力的度量。可以说被打散的X的子集越大,H的表示能力越强。

break point:

对二维感知机来说,当N=4时,无法被shatter,break point = 4.

bounding function 上界函数

当break point 为k时,成长函数能不能被一个多项式上界限制住?

一堆证明后…… B(N,k) = O(N^(k-1))

成长函数mH(N)<= 上限函数B(N,k) <= 多项式函数poly(N),只要成长函数有Break Point存在,那么该成长函数就是一个多项式。

然后推导出了VC bound。。。

如果假设空间存在有限的break point,那么m_H(2N)会被最高幂次为k–1的多项式上界给约束住。随着N的逐渐增大,指数式的下降会比多项式的增长更快,所以此时VC Bound是有限的。更深的意义在于,N足够大时,对H中的任意一个假设h,Ein(h)都将接近于Eout(h),这表示学习可行的第一个条件是有可能成立的。

至此,如要问题是可学习的,那么需要:

  1. 好的假设空间,即存在break point
  2. 好的数据,使Ein与Eout接近
  3. 好的算法,找到一个Ein很小的g

VC dimension:

d_vc 定义为 比 break point 小一的数。是能够被H shatter的最大的样本空间的样本数量。 由vc bound可知 VC维有限的假设是好假设。

如果我们将假设集合的数量|H|比作假设集合的自由度,那么VC维就是假设集合在做【二元分类】的有效的自由度,即这个假设空间能够产生多少Dichotomies的能力(VC维说的是,到什么时候,假设集合还能shatter,还能产生最多的Dichotomies)。

vc维可以近似地认为等于假设空间的参数个数。

如果要做一个好的预测,那么需要解决下面两个问题。

从vc维的角度来描述,如果它比较小,那么发生预测偏差很大的坏事情的可能性也就很小,那这有利于Ein接近Eout;但是,这是我们的假设空间的表达能力受到了限制,这样Ein可能就没有办法做到很小。

如果它比较大,那么假设空间的表的能力很强,Ein可以很小,但是发生坏的预测的可能性就很大。

模型复杂度:

图示说明,d_vc超过某一值后,模型的复杂度越高,它的泛化能力越差,即在out of sample上表现更差。对应的是过拟合。

样本复杂度:

描述在假设模型给定下,需要多少数据才能保证这个假设在大概率下是好的。

总结:如果假设空间的VC维是有限的,并且有足够多的数据,我们的算法又可以找到一个假设使得训练错误率很低的话,我们就可以学习到有效的模型或知识。

时间: 2024-10-09 14:51:20

机器学习基石笔记-Lecture 5-7 VC dimension的相关文章

机器学习基石——第7-8讲.The VC dimension

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记.所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解.(https://class.coursera.org/ntumlone-002/lecture) 第7讲-------The VC dimension 一.VC dimension的定义 VC dimension是什么呢?大家可能猜到了,这是和我们上

机器学习基石第七讲 The VC Dimension

一.Definition of VC Dimension

机器学习基石笔记-Lecture 3 Types of learning

介绍了机器学习中的几类问题划分. 半监督学习能够避免标记成本昂贵的问题. 强化学习,可以看做是从反馈机制中来学习. 在线学习,数据一个接一个地产生并交给算法模型线上迭代. 主动学习,机器能针对自己没有信心的数据提问,得到答案后再学习. 针对特征空间也有分类,比如具体的特征.原始的(个人理解是人为可提取的)特征和抽象的(个人理解是难以提炼的)特征.

机器学习基石笔记-Lecture 9 Linear regression

线性回归的任务是对于一个输入,给出输出的实数,保证和真实输出相差越小越好.因为假设空间是线性的,所以最后的g会是直线或者平面. 通常的误差衡量方法是使用平方误差 接下来的问题是如何最小化 Ein 将Ein写成矩阵形式, 注意到Ein是w的函数,是连续的.可微的.凸函数. 对w求偏导使之为0则可以求出最优点.  这是一个关于w的一次方程. 在  不可逆时,它的 pseudo-inverse仍然存在,只是会有多个,选取其中一个去得到w即可. 线性回归是一个学习算法吗? 先来看一看它的Ein H也可以

机器学习基石笔记-Lecture 10 Logistic regression

soft binary classification的概念:软二分类,不直接化为-1.1,而是给出一个概率值. 目标函数是一个概率值,但是拿到的data中y只有0.1(或者-1.1),可以看做是有noise的data. logistic hypothesis 通过 theta 转化为 0.1间的数. 目标函数f(x)其实呢就是,那么 那么对N个样本,产生的概率是 对于f的估计h,似然函数为 那么有: 使 用w替换掉h,即求w的极大似然估计 化简后等价于 最后的Ein就是cross-entropy

机器学习基石笔记-Lecture 4 Learning is possible

hoeffding 不等式 说明了在样本量足够大时,抽样估计能够接近真实值. 类比到ml中,对给定的一个假设空间中的h, 它在整个样本空间中的表现可以由在部分样本点上的表现来近似.也就是说样本足够多的时候,Ein与Eout近似相等. 现在已经知道对任意给定的h,在N足够大时,Ein近似于Eout,如果 Ein 非常小,那么Eout也就小,就说明这个 h 和 真实的 f 在很大概率上是很接近的. 现在的一个问题是,如果在多个假设中,其中一个假设h针对训练数据的输出都是正确的,也就是Ein为0,是不

机器学习基石笔记7——为什么机器可以学习(3)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记6——为什么机器可以学习(2)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记15——机器可以怎样学得更好(3)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8